CN114741172A

CN114741172A - 人工智能模型的算子调度方法、装置、设备及存储介质

Info

Publication number: CN114741172A
Application number: CN202210357812.6A
Authority: CN
Inventors: 伍永情; 蔡权雄; 牛昕宇
Original assignee: Shenzhen Corerain Technologies Co Ltd
Current assignee: Shenzhen Corerain Technologies Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-12
Anticipated expiration: 2042-04-06
Also published as: CN114741172B

Abstract

本申请涉及一种人工智能模型的算子调度方法、装置、设备及存储介质。所述方法包括：获取模型对应的每个目标算子的参考运行时长，基于多个算子队列中的算子数量以及算子的预期等待时长，计算每个算子队列的预期排队时间，基于参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列。本申请可以可以最大限度的均衡各个算子队列中的算子，从而最大限度的均衡各个推理引擎上的推理负载，让各个APP对应的模型推理延迟趋于均衡，有效地避免了按照算子队列中的算子数量进行调度导致的推理延迟扩散问题，减少了每个目标算子的等待时间，提高了整个系统的AI推理效率。

Description

人工智能模型的算子调度方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种人工智能模型的算子调度方法、装置、设备及存储介质。

背景技术

目前，对人工智能模型的算子进行调度采取的策略大多根据算子队列中的已有的算子数量将目标算子放入队列中，该调度策略的缺陷是当算子队列中某个算子的运行时间比队列中其他算子的运行时间较长时，该算子将会导致该队列中位于该算子后面的其他算子的有较长的等待时间，从而增大后续所有算子的推理延迟，且由于一个APP中的深度学习神经网络的多个算子可能会分布到多个不同的队列中，一个网络中多个算子之间可能还有依赖关系，如果算子之间还做了同步的话，一个需要较长时间完成的算子不仅会阻塞本队列中的算子任务，可能还会阻塞其他队列中的算子任务，从而造成大部分网络的推理延迟增加。

因此，如何提高模型推理效率，已成为本领域技术人员亟需解决的技术问题。

发明内容

鉴于以上内容，本申请提供一种人工智能模型的算子调度方法、装置、设备及存储介质，其目的在于提高模型推理效率。

第一方面，本申请提供一种人工智能模型的算子调度方法，该方法包括：

获取模型对应的每个目标算子的参考运行时长；

基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间；

基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列。

优选的，所述获取模型对应的每个目标算子的参考运行时长，包括：

获取所述模型在预设运行环境中的运行数据，从所述运行数据中读取所述模型对应的目标算子的运行时间作为目标算子的参考运行时长。

优选的，所述基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间，包括：

为每个算子队列赋予初始等待时间值，将算子队列中每个算子的预期等待时长与算子队列的初始等待时间值相加，得到算子队列的预期排队时间。

优选的，所述基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列，包括：

基于每个算子队列的预期排队时间，对每个算子队列执行排序操作得到排序结果；

从所述排序结果中选取预期排队时间最短的算子队列；

添加一个目标算子至预期排队时间最短的算子队列。

优选的，在将任意一个目标算子添加至预期排队时间最短的算子队列之后，所述方法还包括：

根据添加的目标算子的参考运行时长及每个算子队列中等待算子的执行情况，更新所有算子队列的预期排队时间；

从更新预期排队时间后的算子队列中选取出预期排队时间最短的算子队列；

添加一个目标算子至预期排队时间最短的算子队列，重复上述步骤直至将所有目标算子添加至算子队列。

优选的，所述根据添加的目标算子的参考运行时长及每个算子队列中等待算子的执行情况，更新所有算子队列的预期排队时间，包括：

若算子队列中添加了目标算子，将目标算子的参考运行时长加上该算子队列未添加目标算子时的预期排队时间，作为该算子队列更新后的预期排队时间。

若算子队列中有等待算子被执行，将该算子队列中未执行等待算子时的预期排队时间减去被执行的等待算子的运行时间，作为该算子队列更新后的预期排队时间。

第二方面，本申请提供一种人工智能模型的算子调度装置，该人工智能模型的算子调度装置包括：

获取模块：用于获取模型对应的每个目标算子的参考运行时长；

计算模块：用于基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间；

调度模块：用于基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列。

第三方面，本申请提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的人工智能模型的算子调度方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的人工智能模型的算子调度方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请提出的人工智能模型的算子调度方法、装置、设备及存储介质，将深度学习推理模型的每个目标算子的参考运行时长纳入调度的考虑范围，根据算子队列的预期排队时间以及每个目标的参考运行时长进行调度，可以最大限度的均衡各个算子队列中的算子，从而最大限度的均衡各个推理引擎上的推理负载，让各个APP对应的模型推理延迟趋于均衡，有效地避免了按照算子队列中的算子数量进行调度导致的推理延迟扩散问题，减少了每个目标算子的等待时间，提高了整个系统的AI推理效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请人工智能模型的算子调度方法较佳实施例的流程图示意图；

图2为本申请人工智能模型的算子调度装置较佳实施例的模块示意图；

图3为本申请电子设备较佳实施例的示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种人工智能模型的算子调度方法。参照图1所示，为本申请人工智能模型的算子调度方法的实施例的方法流程示意图。该方法可以由一个电子设备执行，该电子设备可以由软件和/或硬件实现。人工智能模型的算子调度方法包括：

步骤S10：获取模型对应的每个目标算子的参考运行时长；

步骤S20：基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间；

步骤S30：基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列。

AI推理芯片一般集成了CPU、GPU、Video Decoder/Encoder、AI Engine等多种硬件资源，由于目前推理应用的复杂性以及AI Engine设计的复杂性，一般会选择先设计AIEngine的IP核，然后在SoC级别例化多个IP核，从而达到灵活配置AI算力以及简化IP设计的目的。

AI推理芯片根据算力需求会配置多个AI Engine。当一个SoC芯片上有多个AIEngine时，为了最大效率地利用每个AI Engine，会有一个负责调度的呈现出负责调度，调度是在op层次，即算子层次进行的，在人工智能领域中，深度学习推理模型的卷积是一个算子，pooling是一个算子，relu也是一个算子。AI Engine是硬件推理引擎，算子队列是某个AI Engine的任务队列。

本实施例中，一个深度学习推理模型有对应的多个目标算子，获取每个目标算子对应的参考运行时长可以是将每个目标算子在测试环境的运行时间作为参考运行时长，也可以将模型初次在相关平台的运行时间作为参考运行时间。再根据预先构建的多个算子队列中的算子数量来计算每个算子队列的预期排队时间，算子队列中可以有多个待执行的等待算子，每个等待算子可以有对应的运行时间，根据等待算子的运行时间相加可以作为算子队列的预期排队时间，最后根据目标算子的参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列。

本申请将深度学习推理模型的每个目标算子的参考运行时长纳入调度的考虑范围，根据算子队列的预期排队时间以及每个目标的参考运行时长进行调度，能够最大限度的均衡各个AI Engine上的推理负载，让各个APP对应的模型推论延迟趋于均衡，有效地避免了按照算子队列中的算子数量进行调度导致的推理延迟扩散问题，减少了每个目标算子的等待时间，提高了整个系统的AI推理效率。

在一个实施例中，所述获取模型对应的每个目标算子的参考运行时长，包括：

获取深度学习推理模型的每个目标算子的参考运行时长可以是模型初次在平台运行时，获取到每个目标算子的运行时间作为参考运行时间。具体地，利用AI编译器将通用平台训练的模型转换为平台专用的模型表示，准备只有一个APP、一个网络运行的运行环境，将平台专用的模型输入至该运行环境中，可以收集模型每个目标算子的运行数据，从运行数据中读取目标算子的运行时间作为参考运行时长，进一步地，还可以汇总每个目标算子的参考运行时长，将汇总数据填充到平台专用模型的对应部分，生成带有目标算子参考运行时间的平台专用模型。

在一个实施例中，所述基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间，包括：

每个算子队列中包括多个等待的算子，在计算每个算子队列的预期排队时间时，可以为每个算子队列赋予相同或不同的初始等待时间值，将算子队列中每个等待的算子的预期等待时长与该算子队列的初始等待时间值相加，可以得到该算子队列的预期排队时间。模型的目标算子加入算子队列时，可以将该目标算子的参考运行时长增加到该算子队列的预期排队时间。算子队列中的等待算子被执行离开队列后，可以将该算子队列的预期排队时间中减去等待算子的运行时间。

在一个实施例中，所述基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列，包括：

从所述排序结果中选取预期排队时间最短的算子队列；

添加一个目标算子至预期排队时间最短的算子队列。

根据每个算子队列的预期排队时间的长短，将每个算子队列的预期排队时间由小到大进行排序，可以从排序结果中选取预期排队时间最短的算子队列，将一个目标算子至添加至预期排队时间最短的算子队列中，可以减少目标算子的等待时间，提高系统的AI推论效率。例如，算子队列A、算子队列B和算子队列C的预期排队时间分别为70ms、80ms和100ms，则添加一个目标算子至预期排队时间最短的算子队列A中。

在一个实施例中，在将任意一个目标算子添加至预期排队时间最短的算子队列之后，所述方法还包括：

由于算子队列中添加了目标算子，以及算子队列中的等待算子会被执行后离开队列，会使得算子队列的预期排队时间会发生变化，如果要将所有目标算子添加至队列中，在算子队列中添加了目标算子后，或者算子队列中的等待算子被执行离开队列后，均需要计算出预期排队时间最短的算子队列，因此可以根据添加的目标算子的参考运行时长及每个算子队列中等待算子的执行情况，更新所有算子队列的预期排队时间，即目标算子加入算子队列时，将该目标算子的参考运行时长增加到该算子队列的预期排队时间，算子队列中的等待算子被执行离开队列后，将该算子队列的预期排队时间中减去等待算子的运行时间。

再从更新预期排队时间后的算子队列中选取出预期排队时间最短的算子队列，添加一个目标算子至预期排队时间最短的算子队列，重复上述步骤直至将所有目标算子添加至算子队列。

由于每次将目标算子添加至目标队列时，均是将目标算子添加至当前预期排队时间最短的算子队列，可以最大限度的均衡各个算子队列中的算子，从而均衡各个AI Engine上的推理负载，让各个APP对应的深度学习网络的推理延迟趋于均衡，避免了按照队列长度进行调度导致的推理延迟的问题。

在一个实施例中，所述根据添加的目标算子的参考运行时长及每个算子队列中等待算子的执行情况，更新所有算子队列的预期排队时间，包括：

若算子队列中添加了目标算子，将目标算子的参考运行时长加上该算子队列未添加目标算子时的预期排队时间，作为该算子队列更新后的预期排队时间，例如，目标算子的参考运行时长为10ms，算子队列的预期排队时间50ms，目标算子加入该算子队列后，该算子队列更新后的预期排队时间为60ms。

若算子队列中有等待算子被执行，将该算子队列中未执行等待算子时的预期排队时间减去被执行的等待算子的运行时间，作为该算子队列更新后的预期排队时间，例如，等待算子的运行时间为10ms，算子队列的预期排队时间50ms，等待算子被执行离开出队列后，则该算子队列更新后的预期排队时间为40ms。

在一个实施例中，将模型的每个目标算子均添加至算子队列后，继续等待新的添加算子至算子队列的任务。

参照图2所示，为本申请人工智能模型的算子调度装置100的功能模块示意图。

本申请所述人工智能模型的算子调度装置100可以安装于电子设备中。根据实现的功能，所述人工智能模型的算子调度装置100可以包括获取模块110、计算模块120及调度模块130。本申请所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

获取模块110：用于获取模型对应的每个目标算子的参考运行时长；

计算模块120：用于基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间；

调度模块130：用于基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列。

从所述排序结果中选取预期排队时间最短的算子队列；

添加一个目标算子至预期排队时间最短的算子队列。

在一个实施例中，调度模块140还用于：

参照图3所示，为本申请电子设备1较佳实施例的示意图。

该电子设备1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子设备1的外部存储设备，例如该电子设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件，例如人工智能模型的算子调度程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行人工智能模型的算子调度程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode，OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。

图3仅示出了具有组件11-14以及人工智能模型的算子调度程序10的电子设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

该电子设备1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的人工智能模型的算子调度程序10时可以实现如下步骤：

获取模型对应的每个目标算子的参考运行时长；

所述存储设备可以为电子设备1的存储器11，也可以为与电子设备1通讯连接的其它存储设备。

关于上述步骤的详细介绍，请参照上述图2关于人工智能模型的算子调度装置100实施例的功能模块图以及图1关于人工智能模型的算子调度方法实施例的流程图的说明。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性的，也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区，存储程序区存储有人工智能模型的算子调度程序10，所述人工智能模型的算子调度程序10被处理器执行时实现如下操作：

获取模型对应的每个目标算子的参考运行时长；

本申请之计算机可读存储介质的具体实施方式与上述人工智能模型的算子调度方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人工智能模型的算子调度方法，其特征在于，所述方法包括：

获取模型对应的每个目标算子的参考运行时长；

基于预先构建的多个算子队列中的算子数量及算子的预期等待时长，计算每个算子队列的预期排队时间；

2.如权利要求1所述的人工智能模型的算子调度方法，其特征在于，所述获取模型对应的每个目标算子的参考运行时长，包括：

3.如权利要求1所述的人工智能模型的算子调度方法，其特征在于，所述基于预先构建的多个算子队列中的算子数量及算子的预期排队时长，计算每个算子队列的预期排队时间，包括：

4.如权利要求1所述的人工智能模型的算子调度方法，其特征在于，所述基于所述参考运行时长及每个算子队列的预期排队时间，将每个目标算子分别添加至预期排队时间最短的算子队列，包括：

从所述排序结果中选取预期排队时间最短的算子队列；

添加一个目标算子至预期排队时间最短的算子队列。

5.如权利要求4所述的人工智能模型的算子调度方法，其特征在于，在将任意一个目标算子添加至预期排队时间最短的算子队列之后，所述方法还包括：

6.如权利要求5所述的人工智能模型的算子调度方法，其特征在于，所述根据添加的目标算子的参考运行时长及每个算子队列中等待算子的执行情况，更新所有算子队列的预期排队时间，包括：

7.如权利要求5所述的人工智能模型的算子调度方法，其特征在于，所述根据添加的目标算子的参考运行时长及每个算子队列中等待算子的执行情况，更新所有算子队列的预期排队时间，包括：

8.一种人工智能模型的算子调度装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至7中任一项所述的人工智能模型的算子调度方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述人工智能模型的算子调度方法的步骤。