CN114691330A

CN114691330A - 数据处理方法、装置、电子设备以及存储介质

Info

Publication number: CN114691330A
Application number: CN202210313235.0A
Authority: CN
Inventors: 王天飞; 韩布和; 陈振; 王磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-01
Also published as: US20230305882A1; US12093721B2; EP4254272A1

Abstract

本公开提供了一种数据处理方法、装置、电子设备以及存储介质，涉及深度学习、数据处理领域，尤其涉及一种数据处理方法、装置、电子设备以及存储介质。具体实现方案为：获取目标模型的多个目标算子；按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；输出至少一个算子组。

Description

数据处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及深度学习、数据处理领域，尤其涉及一种数据处理方法、装置、电子设备以及存储介质。

背景技术

目前，在使用现场可编程门阵列(Field Programmable Gate Array，简称为FPGA)硬件对网络模型进行处理时，在FPGA和中央处理器(Central Processing Unit，简称为CPU)上一个一个算子进行调度运行，使得每次都会产生一次系统中断、寄存器配置、上下文切换等操作，需要消耗额外的时间。

发明内容

本公开提供了一种用于数据处理的方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种数据处理方法，包括：获取目标模型的多个目标算子；按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；输出至少一个算子组。

可选地，该方法还包括：获取每个目标算子的顺序标识，其中，顺序标识用于表示对应的目标算子在目标模型中的运行顺序；其中，按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组包括：按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组。

可选地，按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组包括：响应于多个第一目标算子的顺序标识连续，且多个第一目标算子待在同一所述处理器上运行，则将多个第一目标算子划分为一个算子组，其中，目标算子包括第一目标算子；和/或响应于第二目标算子的顺序标识在处理器上未具有相邻的顺序标识，则将第二目标算子划分为一个算子组，其中，目标算子包括第二目标算子。

可选地，该方法还包括：响应于多个第一目标算子的类型相同，则确定多个第一目标算子待在同一处理器上运行。

可选地，该方法还包括：获取多个目标算子之间的关联关系；其中，按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，包括：按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组。

可选地，按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，包括：响应于关联关系用于表征允许调整多个第三目标算子的顺序标识，且多个第三目标算子的顺序标识未全连续，则对多个第三目标算子的顺序标识进行调整，其中，目标算子包括第三目标算子，调整后的多个第三目标算子的顺序标识连续；按照调整后的多个第三目标算子的顺序标识，将多个目标算子划分为至少一个算子组。

可选地，按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，包括：响应于关联关系用于表征禁止调整多个第四目标算子的顺序标识，且多个第四目标算子的顺序标识未全连续，则将多个第四目标算子中顺序标识连续，且待在同一处理器上运行的至少两个第四目标算子划分为一个算子组，和/或，将多个第四目标算子中在处理器上未具有相邻的顺序标识的第四目标算子划分为一个算子组，其中，目标算子包括第四目标算子。

根据本公开的一方面，从应用侧提供了一种数据处理方法，包括：获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

可选地，将每个算子组中至少一个目标算子在对应的处理器上依次运行，得到运行结果，包括：响应于来自第一处理器的驱动指令，将每个算子组中至少一个目标算子在对应的第一处理器或第二处理器上依次运行，得到运行结果。

可选地，在将每个算子组中至少一个目标算子在对应的第二处理器上依次运行，得到运行结果之后，该方法还包括：向第一处理器输出中断指令，其中，中断指令用于对第一处理器进行中断处理。

根据本公开的另一方面，提供了一种数据处理装置，包括：第一获取单元，用于获取目标模型的多个目标算子；划分单元，用于按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；输出单元，用于输出至少一个算子组。

根据本公开的另一方面，从应用侧提供了一种数据处理装置，包括：第二获取单元，用于获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；运行单元，用于针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的数据处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例的数据处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开实施例的数据处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种数据处理方法的流程图；

图2是根据本公开实施例的一种从应用侧提供的数据处理方法的流程图；

图3是根据本公开实施例的一种采用dispatch技术对算子进行调整的方法的流程图；

图4是根据本公开实施例的一种采用运行图优化技术对算子进行调整的方法的流程图；

图5是根据本公开实施例的一种数据处理装置的示意图；

图6是根据本公开实施例的一种从应用侧提供的数据处理装置的示意图；

图7是根据本公开实施例的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面对本公开实施例的数据处理方法进行进一步地介绍。

在相关技术中，在FPGA和CPU上一个一个算子进行调度运行，这也每次都会产生一次系统中断、寄存器配置、上下文切换等操作，需要消耗额外的时间，从而存在模型的运行效率低的技术问题。

举例而言，目标模型的网络结构如下：

卷积1(conv1)->卷积2(conv2)->池化1(pool1)->重新调整(reshape)->卷积3(conv3)->全连接层1(fc1)

调度运行这些算子，CPU通过驱动，驱动通过高速可扩展(Advanced eXtensibleInterface，简称为AXI)总线下发配置给FPGA，驱动进入阻塞状态，FPGA运算结束发送中断给CPU,驱动继续执行，一个OP运算结束，再配置下一个算子进行运行。具体顺序如下：

第一次CPU调度：运行conv1算子；

第二次CPU调度：运行conv2算子；

第三次CPU调度：运行pool1算子；

第四次CPU调度：运行reshape算子；

第五次CPU调度：运行conv3算子；

第六次CPU调度：运行fc1算子。

上述过程当中有两处会对性能造成影响。一是预测框架从操作系统的用户态到内核态，再回到用户态，需要进程上下文切换；二是每一次算子运算都要处理一次中断，多用户网络操作系统(Linux)对中断的响应事实性比较差，会造成一定的时间消耗。

本公开提出了一种基于FPGA的深度学习网络模型运行优化方案，将目标模型中的连续的算子进行打包，在FPGA上一次调度运行，完成深度学习网络模型多个算子的计算，提高了模型的运行效率。

图1是根据本公开实施例的一种数据处理方法的流程图，如图1所示，该方法可以包括以下步骤：

步骤S102，获取目标模型的多个目标算子。

在本公开上述步骤S102提供的技术方案中，在深度学习模型在FPGA上进行加速计算时，通常的做法是把模型中的计算型算子放到FPGA上，逻辑型算子放到CPU上，由CPU负责调度，一个一个的运行，比如，获取目标模型的多个目标算子可以是获取深度学习模型中的计算型算子和逻辑型算子。

在该实施例中，目标模型可以是深度学习模型，深度学习模型可以是卷积神经网络模型，卷积神经网络模型是一类包含计算且具有深度结构的前馈神经网络，具有表征学习能力。

在该实施例中，目标算子可以是深度学习模型中的计算型算子和逻辑型算子，计算型算子可以是需要大量计算操作的算子，逻辑型算子可以是主要以逻辑运算为主的算子。

步骤S104，按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行。

在本公开上述步骤S104提供的技术方案中，按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，比如，通过分析深度学习网络模型结构，发现大量在计算型算子，在网络模型中执行的顺序是连续的，可以采用快速处理(dispatch)技术把细粒度的、连续的计算型算子打包成粗粒度的一个算子，只需要CPU进行一次调度，FPGA内部进行这些连续的计算型算子的调度和计算。

在该实施例中，算子组可以是粗粒度算子或组合算子。

在该实施例中，可以采用dispatch技术和运行图优化技术，将多个目标算子划分为至少一个算子组，运行图优化可以是把算子的顺序的调整，把没有依赖的算子往后排，使FPGA算子在运行图中尽量能连续排列，一次粗粒度算子打包能包含更多的计算型算子。

在该实施例中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行，比如，一次dispatch运算完成后再发送一条中断交给CPU进行处理，CPU再调度进行下一个CPU算子或算子组中的目标算子(Dispatch OP)的运算，每个算子组中的目标算子在同一目标运行时段内运行。

在该实施例中，优选的，对目标算子可以是先进行运行图优化，再进行dispatch打包。

在该实施例中，可选地，获取每个目标算子的顺序标识，其中，顺序标识用于表示对应的目标算子在目标模型中的运行顺序，然后，按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组。

举例而言，计算型算子(FPGA OP)，需要大量计算操作的算子，比如，卷积(conv)、池化(pool)、深度可分离卷积(dwconv)、批归一化(batchnorm)、改变(scale)、逻辑回归(softmax)、全连接层1(fc1)；

逻辑性算子(CPU OP)，主要以逻辑运算为主的算子，比如，重新调整(reshape)、转置(transpose)、丢弃(dropout)。

用以下深度学习模型结构进行说明如下：

conv1->conv2->pool1->reshape->conv3->fc1

逻辑性算子(CPU OP)：reshape；

细粒度算子：conv1、conv2、pool1、reshape、conv3、fc1；

粗粒度算子(Dispatch OP)：dispatch-op1(conv1、conv2、pool1)、dispatch-op2(conv3、fc1)。

第一次CPU调度：运行dispatch-op1(conv1、conv2、pool1)，FPGA内部完成调度；

第二次CPU调度：运行reshape算子；

第三次CPU调度：运行dispatch-op2(conv3、fc1))，FPGA内部完成调度。

步骤S106，输出至少一个算子组。

在本公开上述步骤S106提供的技术方案中，输出多个算子组，比如，在采用dispatch技术和运行图优化技术将多个目标算子划分为多个算子组之后，输出多个算子组，其中，计算型算子放在FPGA上运行，逻辑型算子放在CPU上运行。

通过上述步骤S102至步骤S106，获取目标模型的多个目标算子；按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中至少一个目标算子由对应的处理器在目标运行时段内运行；输出多个算子组，也就是说，本申请通过将获取到的目标模型的多个目标算子，按照每个目标算子在目标模型中的运行顺序，来划分为至少一个算子组，这样就可以在运行目标模型时调度这些算子组，从而实现了在运行目标模型时减少调度次数的目的，进而解决了模型的运行效率低的技术问题，达到了通过调度算子组运行目标模型的技术效果。

下面对该实施例的上述方法进行进一步地详细介绍。

作为一种可选的实施方式，步骤S104，该方法还包括：获取每个目标算子的顺序标识，其中，顺序标识用于表示对应的目标算子在目标模型中的运行顺序；其中，按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为多个算子组包括：按照每个目标算子的顺序标识，将多个目标算子划分为多个算子组。

在该实施例中，可以获取每个目标算子的顺序标识，比如，在深度学习模型中的大量的计算型算子在计算时是连续的，通过获取这些连续的计算型算子，并将其通过dispatch技术和运行图优化技术打包为粗粒度的一个算子，再调度FPGA运行计算。

在该实施例中，目标算子的顺序标识可以是目标算子的序号，顺序标识用于表示对应的目标算子在目标模型中的运行顺序，多个第一目标算子的顺序标识连续，也即，多个顺序标识连续，是指多个顺序标识具有相邻关系，其对应的是多个第一目标算子在执行的顺序上有相邻次序，比如，顺序标识1、顺序标识2、顺序标识5、顺序标识6先后排列，其可以理解为是连续的。

在该实施例中，按照每个目标算子的顺序标识，将多个目标算子划分为多个算子组，比如，可以采用dispatch技术将细粒度的、连续的计算型算子打包成粗粒度的一个算子，进而将多个目标算子划分为多个算子组。

在该实施例中，粒度可以是计算机领域的数据库名词，粒度可以是指数据仓库的数据单位中保存数据的细化或综合程度的级别。

该实施例通过获取每个目标算子的顺序标识，按照每个目标算子的顺序标识，将多个目标算子划分为多个算子组，这样就可以在调度这些算子组时按照顺序标识运行目标算子，从而达到减少调度次数的效果。

作为一种可选的实施方式，按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组包括：响应于多个第一目标算子的顺序标识连续，且多个第一目标算子待在同一所述处理器上运行，则将多个第一目标算子划分为一个算子组，其中，目标算子包括第一目标算子；和/或响应于第二目标算子的顺序标识在处理器上未具有相邻的顺序标识，则将第二目标算子划分为一个算子组，其中，目标算子包括第二目标算子。

在该实施例中，可以是响应于多个第一目标算子的顺序标识连续，且多个第一目标算子待在同一所述处理器上运行，则将多个第一目标算子划分为一个算子组，其中，目标算子包括第一目标算子，比如，当检测到多个第一目标算子的顺序标识为连续的，且多个计算型算子在FPGA上待运行以及多个逻辑性算子在CPU上待运行，则产生用于表示该信息的信号，响应于该信号，将顺序标志为连续的多个计算型算子打包为一个计算型算子。

在该实施例中，响应于第二目标算子的顺序标识在处理器上未具有相邻的顺序标识，则将第二目标算子划分为一个算子组，其中，目标算子包括第二目标算子，比如，当检测到计算型算子在FPGA上未具有在计算时与其相邻的算子的单独一个序号，则产生用于表示该信息的信号，响应于该信号，将此计算型算子划分一个算子组。

该实施例通过检测目标算子的顺序标识是否连续，将顺序标识连续的多个第一目标算子划分为一个算子组，将在处理器上未具有相邻的顺序标识的第二目标算子划分为一个算子组，这样就可以基于目标算子的顺序标识的连续性将其划分为多个算子组，从而达到通过调度算子组来运行目标模型的效果。

作为一种可选的实施方式，该方法还包括：响应于多个第一目标算子的类型相同，则确定多个第一目标算子待在同一处理器上运行。

在该实施例中，使用FPGA硬件对深度学习网络模型进行加速，会把计算型算子放在FPGA上运行，逻辑型算子放在CPU上运行。

在该实施例中，当检测到多个第一目标算子的类型相同，则产生用于表示该信息的信号，响应于该信号，确定多个第一目标算子待在同一处理器上运行。

在该实施例中，第一目标算子的类型可以是计算型算子和逻辑性算子。

该实施例通过对目标算子的类型进行检测，确定在同一处理器上运行的相同类型的目标算子，这样就可以使得所有相同类型的目标算子在对应的处理器上运行，从而达到了调度算子组在对应的处理器上运行目标算子的效果。

作为一种可选的实施方式，该方法还包括：获取多个目标算子之间的关联关系；其中，按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，包括：按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组。

在该实施例中，模型的网络结果是有分支的，在计算时需要排列后顺序运行，关联关系可以是算子之间是否有依赖的关系。

在该实施例中，可以按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，比如，对深度学习网络模型进行运行图优化，把算子的顺序进行调整，把没有依赖的算子往后排，使FPGA算子在运行图中尽量能连续排列。

该实施例通过确定目标算子之间是否有关联关系，将有关联关系且顺序标识连续的多个目标算子划分为一个算子组，使得目标模型运行时算子组的数量尽可能少，以达到减少目标模型运行时系统中断、上下文切换等操作的效果。

作为一种可选的实施方式，按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，该方法包括：响应于关联关系用于表征允许调整多个第三目标算子的顺序标识，且多个第三目标算子的顺序标识未全连续，则对多个第三目标算子的顺序标识进行调整，其中，目标算子包括第三目标算子，调整后的多个第三目标算子的顺序标识连续；按照调整后的多个第三目标算子的顺序标识，将多个目标算子划分为至少一个算子组。

在该实施例中，第三目标算子可以是有依赖关系的顺序标识未全连续的算子。

在该实施例中，可以是响应于关联关系用于表征允许调整多个第三目标算子的顺序标识，且多个第三目标算子的顺序标识未全连续，则对多个第三目标算子的顺序标识进行调整，比如，在进行运行图优化时，可以对目标算子进行部分调整，当检测到关联关系用于表征允许调整多个第三目标算子的顺序标识，且多个第三目标算子的顺序标识未全连续时，则产生用于表示该信息的信号，响应于该信号，则对多个第三目标算子的顺序标识进行部分调整。

该实施例通过将有关联关系且顺序标识未连续的多个目标算子的顺序标识进行调整后，划分为一个算子组，这样就可以使得算子组的数量进一步减少，从而达到了在目标模型运行时减少调度次数的效果。

作为一种可选的实施方式，按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组，该方法还包括：响应于关联关系用于表征禁止调整多个第四目标算子的顺序标识，且多个第四目标算子的顺序标识未全连续，则将多个第四目标算子中顺序标识连续，且待在同一处理器上运行的至少两个第四目标算子划分为一个算子组，和/或，将多个第四目标算子中在处理器上未具有相邻的顺序标识的第四目标算子划分为一个算子组，其中，目标算子包括第四目标算子。

在该实施例中，第四目标算子可以是没有依赖关系的算子。

在该实施例中，可以响应于关联关系用于表征禁止调整多个第四目标算子的顺序标识，且多个第四目标算子的顺序标识未全连续，则将多个第四目标算子中顺序标识连续，且待在同一处理器上运行的至少两个第四目标算子划分为一个算子组，比如，当检测到关联关系用于表征禁止调整多个第四目标算子的顺序标识，且多个第四目标算子的顺序标识未全连续，则产生用于表示该信息的信号，响应于该信号，将多个第四目标算子中顺序标识连续，且待在同一处理器上运行的至少两个第四目标算子划分为一个算子组。

在该实施例中，可以将多个第四目标算子中在处理器上未具有相邻的顺序标识的第四目标算子划分为一个算子组，其中，目标算子包括第四目标算子，比如，将多个计算型算子中在FPGA上未具有相邻顺序标识的第计算型算子划分为一个算子组。

该实施例通过将无关联关系且序号不全连续的多个目标算子禁止调整其顺序标志，并将其中序号连续的多个目标算子划分为一个算子组，将在处理器上未具有相邻的顺序标识的第二目标算子划分为一个算子组，这样可以将没有关联关系的多个目标算子划分为多个算子组，从而达到通过调度算子组运行目标模型的效果。

图2是根据本公开实施例的一种从应用侧提供的数据处理方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；

在本公开上述步骤S202提供的技术方案中，获取目标模型的至少一个算子组，比如，在实际应用中，获取深度学习网络模型的多个按照深度学习网络模型的多个目标算子中每个目标算子在深度学习中的运行顺序划分得到的算子组。

在该实施例中，目标算子可以是在FPGA上运行的计算型算子和在CPU上运行的逻辑性算子。

步骤S204，针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

在该实施例中，在深度学习网络模型中，通过把细粒度的、连续的算子打包成粗粒度的一个算子，一次调度FPGA运行，完成计算，其中，逻辑型算子调度是由CPU负责，算子一个一个地运行。

在一种可选的实施例中，在对目标模型进行加速运行时，通常使用定制硬件来加速常见的计算任务，FPGA正是一种硬件可重构的体系结构，在本公开实施例中，目标模型可以是深度学习网络模型，通过将获取到的目标模型的多个目标算子，按照每个目标算子在目标模型中的运行顺序，来划分为至少一个算子组，这样就可以在运行目标模型时调度这些算子组，在对深度学习网络模型进行运行加速时，计算型算子在FPGA上运行，逻辑型算子在CPU上运行，可以先获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到，然后针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

在一种可选的实施例中，在对目标模型进行训练时，目标模型可以是深度学习网络模型，在深度学习网络模型的图像识别应用场景下，输入该深度学习网络模型的一张图像首先加载到输入的寄存器中，然后通过运算单元来执行卷积操作，卷积操作可以是通过多个运算单元来运算的，运算单元可以是FPGA，通过将获取到的目标模型的多个目标算子，按照每个目标算子在目标模型中的运行顺序，来划分为至少一个算子组，这样就可以在运行目标模型时调度这些算子组，可以先获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到，然后针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

在一种可选的实施例中，在对目标模型进行测试时，目标模型可以是深度学习网络模型，深度学习网络模型的测试，是指系统性地对深度学习算法的可靠性、可移植性、效率进行评估。其中，在对深度学习网络模型的可靠性和可移植性进行评估时，用于深度学习网络模型的软硬件平台对可靠性的影响包括：硬件架构差异，指不同硬件架构及其计算能力、处理精度等方面的对深度学习网络模型可靠性的影响，对于一些需要低延迟的算法，比如智能驾驶，FPGA的延迟要比图像处理器(GPU)的延迟更低，此外，在FPGA中，可以连接任何的数据源，比如网口或者传感器，可以直接通过芯片的引脚连接，因此，通过FPGA对深度学习网络模型进行测试可以提高稳定性和可移植性；在对深度学习网络模型的运行效率进行评估时，在深度学习网络模型的图像识别的应用场景下，一张图片的输入，卷积神经网络的顺序通常为：输入>卷积层>池化>全连接层>输出，在卷积神经网络的上述运行流程中，通过将获取到的目标模型的多个目标算子，按照每个目标算子在目标模型中的运行顺序，来划分为至少一个算子组，这样就可以在运行目标模型时调度这些算子组，在对深度学习网络模型进行运行加速时，计算型算子在FPGA上运行，逻辑型算子在CPU上运行，可以先获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到，然后针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

作为一种可选的实施方式，步骤S204，针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果，该方法包括：响应于来自第一处理器的驱动指令，将每个算子组中至少一个目标算子在对应的第一处理器或第二处理器上依次运行，得到运行结果。

在该实施例中，响应于来自第一处理器的驱动指令，将每个算子组中至少一个目标算子在对应的第一处理器或第二处理器上依次运行，得到运行结果，比如，当检测到来自CPU的调度运行的驱动指令信号，响应于该信号，将每个算子组中至少一个目标算子在与其关联的CPU或FPGA上依次运行，得到运行结果。

在该实施例中，目标算子在与其关联的CPU上运行，可以是逻辑型算子在CPU上运行，目标算子在与其关联的FPGA上运行，可以是计算型算子在FPGA上运行，而每个算子组(包括逻辑型算子组和计算型算子组)至少包括一个算子，在CPU进行调度运行时，在CPU上按照顺序标识运行逻辑型算子组的算子，在FPGA上按照顺序标识运行计算型算子组的算子。

作为一种可选的实施方式，步骤S204，在将每个算子组中至少一个目标算子在对应的第二处理器上依次运行，得到运行结果之后，该方法还包括：向第一处理器输出中断指令，其中，中断指令用于对第一处理器进行中断处理。

在该实施例中，可以向第一处理器输出中断指令，其中，中断指令用于对第一处理器进行中断处理，比如，在采用Dispatch技术和运行图优化技术通过打包的形式把深度学习网络模型中的连续的算子进行打包之后，CPU一次调度FPGA运行，会产生一次系统中断、寄存器配置、上下文切换等操作。

在本公开实施例中，通过获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果，也就是说，将目标模型中的连续的算子进行打包，在FPGA上一次调度运行，完成深度学习网络模型多个算子的计算，提高了模型的运行效率，从而解决了模型的运行效率低的技术问题，达到了提高模型的运行效率的技术效果。

下面结合优选的实施例对本公开的数据处理方法作进一步地介绍。

相关技术中，深度学习网络模型中的算子是CPU负责调度，一个一个的运行，而每个在FPGA上运行的算子，需要一次调度FPGA运行，会产生一次系统中断、寄存器配置、上下文切换等操作，需要消耗额外的时间。

深度学习网络模型中的算子调度是由CPU负责，算子一个一个的运行，以下网络结构用于举例说明：

调度运行这些算子，CPU通过驱动，驱动通过高速可扩展(Advanced eXtensibleInterface，简称为AXI)总线下发配置给FPGA，驱动进入阻塞状态，FPGA运算结束发送中断给CPU,驱动继续执行，一个运算符(Operator，简称为OP)运算结束，再配置下一个算子进行运行。具体顺序如下：

第一次CPU调度：运行conv1算子；

第二次CPU调度：运行conv2算子；

第三次CPU调度：运行pool1算子；

第四次CPU调度：运行reshape算子；

第五次CPU调度：运行conv3算子；

第六次CPU调度：运行fc1算子。

这个过程当中有两处会对性能造成影响。一是预测框架从操作系统的用户态到内核态，再回到用户态，需要进程上下文切换。；二是每一次算子运算都要处理一次中断，多用户网络操作系统(Linux)对中断的响应事实性比较差，会造成一定的时间消耗。

本发明通过dispatch技术和运行图优化技术，提升深度学习网络模型在FPGA设备上计算加速性能。通过把这些细粒度的、连续的算子打包成粗粒度的一个算子，一次调度FPGA运行，完成计算，多次系统中断、寄存器配置、上下文切换等操作，变成一次系统中断、寄存器配置、上下文切换等操作。

图3是根据本公开实施例的一种采用dispatch技术对算子进行调整的方法的流程图，如图3所示，通过分析深度学习网络模型结构，发现大量在计算型算子，在网络模型中执行的顺序是连续的。dispatch技术是指把细粒度的、连续的计算型算子打包成粗粒度的一个算子，只需要CPU进行一次调度，FPGA内部进行这些连续的计算型算子的调度和计算的技术。一次dispatch运算完成后再发送一条中断交给CPU进行处理，CPU再调度进行下一个CPU算子或粗粒度算子(Dispatch OP)的运算。使用dispatch技术后，多次系统中断、上下文切换等操作，变成一次多次系统中断、上下文切换等操作。

计算型算子(FPGA OP)，需要大量计算操作的算子，比如，卷积(conv)、池化(pool)、深度可分离卷积(dwconv)、批归一化(batchnorm)、改变(scale)、逻辑回归(softmax)、全连接层1(fc1)。

逻辑性算子(CPU OP)，主要以逻辑运算为主的算子，如：重新调整(reshape)、转置(transpose)、丢弃(dropout)。

用以下深度学习网络模型结构对上述算子进行说明：

conv1->conv2->pool1->reshape->conv3->fc1

逻辑性算子(CPU OP)：reshape；

细粒度算子：conv1、conv2、pool1、reshape、conv3、fc1；

粗粒度算子(Dispatch OP)：dispatch-op1(conv1、conv2、pool1)、dispatch-op2(conv3、fc1)；

第二次CPU调度：运行reshape算子；

图4是根据本公开实施例的一种采用运行图优化技术对算子进行调整的方法的流程图，如图4所示，调整前FPGA算子会被打包成4个粗粒度算子，调整后被打包成2个粗粒度算子。通过dispatch技术进行粗粒度算子打包，并没达到最佳优化，还可以对深度学习网络模型进行运行图优化，把算子的顺序进行调整，把没有依赖的算子往后排，使FPGA算子在运行图中尽量能连续排列，一次粗粒度算子打包能包含更多的FPGA OP。

在本公开实施例中，通过采用dispatch技术对算子进行调整，相比优化前，减少大量的CPU调度操作，采用运行图优化技术对算子进行调整，对深度学习网络模型进行运行图优化，把算子的顺序进行调整，提高了深度学习网络模型的运行效率，从而解决了模型的运行效率低的技术问题，达到了提高模型的运行效率的技术效果。

本公开实施例还提供了一种用于执行图1所示实施例的数据处理方法的数据处理装置。

图5是根据本公开实施例的一种数据处理装置的示意图，如图5所示，该数据处理装置50可以包括：第一获取单元51、划分单元52、输出单元54。

第一获取单元51，用于获取目标模型的多个目标算子；

划分单元52，用于按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；

输出单元53，用于输出至少一个算子组。

可选地，划分单元52包括：第一获取模块和第一划分模块，其中，第一划分模块包括：第一划分子单元和第二划分子单元，其中，第一划分子单元包括运行子模块。其中，第一获取模块，用于获取每个目标算子的顺序标识，其中，顺序标识用于表示对应的目标算子在目标模型中的运行顺序；第一划分模块，用于按照每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组；第一划分子单元，用于响应于多个第一目标算子的顺序标识连续，且多个第一目标算子待在同一所述处理器上运行，则将多个第一目标算子划分为一个算子组，其中，目标算子包括第一目标算子；第二划分子单元，用于响应于第二目标算子的顺序标识在处理器上未具有相邻的顺序标识，则将第二目标算子划分为一个算子组，其中，目标算子包括第二目标算子；运行子模块，用于响应于多个第一目标算子的类型相同，则确定多个第一目标算子待在同一处理器上运行。

可选地，第一获取模块包括：第一获取子单元，第一划分模块包括：第三划分子单元，其中，第三划分子单元包括调整模块、第一划分子模块和第二划分子模块。其中，第一获取子单元，用于获取多个目标算子之间的关联关系；第三划分子单元，用于按照关联关系和每个目标算子的顺序标识，将多个目标算子划分为至少一个算子组；调整模块，用于响应于关联关系用于表征允许调整多个第三目标算子的顺序标识，且多个第三目标算子的顺序标识未全连续，则对多个第三目标算子的顺序标识进行调整，其中，目标算子包括第三目标算子，调整后的多个第三目标算子的顺序标识连续；第一划分子模块，用于按照调整后的多个第三目标算子的顺序标识，将多个目标算子划分为至少一个算子组；第二划分子模块，用于响应于关联关系用于表征禁止调整多个第四目标算子的顺序标识，且多个第四目标算子的顺序标识未全连续，则将多个第四目标算子中顺序标识连续，且待在同一处理器上运行的至少两个第四目标算子划分为一个算子组，和/或，将多个第四目标算子中在处理器上未具有相邻的顺序标识的第四目标算子划分为一个算子组，其中，目标算子包括第四目标算子。

本公开实施例还从应用侧提供了一种用于执行图2所示实施例的数据处理方法的数据处理装置。

图6是根据本公开实施例的一种从应用侧提供的数据处理装置的示意图，如图6所示，该数据处理装置60可以包括：第二获取单元61、运行单元62。

第二获取单元61，用于获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；

运行单元62，用于针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

可选地，运行单元62包括：运行子单元，其中，运行子单元包括中断模块。其中，运行子单元，用于响应于来自第一处理器的驱动指令，将每个算子组中至少一个目标算子在对应的第一处理器或第二处理器上依次运行，得到运行结果；中断模块，用于向第一处理器输出中断指令，其中，中断指令用于对第一处理器进行中断处理。

在本公开实施例中，通过第一获取单元51，获取目标模型的多个目标算子；划分单元52，按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；输出单元53，输出至少一个算子组；第二获取单元61，获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；运行单元62，针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果，也就是说，在本申请中，将目标模型中的连续的算子进行打包，在FPGA上一次调度运行，完成深度学习网络模型多个算子的计算，提高了模型的运行效率，从而解决了模型的运行效率低的技术问题，达到了提高模型的运行效率的技术效果。

本公开实施例中，通过本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开的实施例提供了一种电子设备，该电子设备可以包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的语音数据的处理方法。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

步骤S11，获取目标模型的多个目标算子；

步骤S12，按照每个目标算子在目标模型中的运行顺序，将多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；

步骤S13，输出至少一个算子组。

可选地，在本实施例中，上述非易失性存储介质还可以被设置为存储用于执行以下步骤的计算机程序：

步骤S21，获取目标模型的至少一个算子组，其中，至少一个算子组为按照目标模型的多个目标算子中每个目标算子在目标模型中的运行顺序划分得到；

步骤S22，针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现以下步骤：

步骤S11，获取目标模型的多个目标算子；

步骤S13，输出至少一个算子组。

可选地，在本实施例中，该计算机程序在被处理器执行时还可以实现以下步骤：

图7是根据本公开实施例的一种电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法获取目标模型的多个目标算子。例如，在一些实施例中，方法获取目标模型的多个目标算子可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法获取目标模型的多个目标算子的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法获取目标模型的多个目标算子。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

获取目标模型的多个目标算子；

按照每个所述目标算子在所述目标模型中的运行顺序，将所述多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；

输出所述至少一个算子组。

2.根据权利要求1所述的方法，还包括：

获取每个所述目标算子的顺序标识，其中，所述顺序标识用于表示对应的所述目标算子在所述目标模型中的运行顺序；

其中，按照每个所述目标算子在所述目标模型中的运行顺序，将所述多个目标算子划分为至少一个算子组包括：按照每个所述目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组。

3.根据权利要求2所述的方法，其中，按照每个所述目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组包括：

响应于多个第一目标算子的顺序标识连续，且所述多个第一目标算子待在同一所述处理器上运行，则将所述多个第一目标算子划分为一个所述算子组，其中，所述目标算子包括所述第一目标算子；和/或

响应于第二目标算子的顺序标识在所述处理器上未具有相邻的顺序标识，则将所述第二目标算子划分为一个所述算子组，其中，所述目标算子包括所述第二目标算子。

4.根据权利要求3所述的方法，还包括：

响应于所述多个第一目标算子的类型相同，则确定所述多个第一目标算子待在同一所述处理器上运行。

5.根据权利要求2所述的方法，还包括：

获取所述多个目标算子之间的关联关系；

其中，按照每个所述目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组，包括：按照所述关联关系和每个所述目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组。

6.根据权利要求5所述的方法，其中，按照所述关联关系和每个所述目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组，包括：

响应于所述关联关系用于表征允许调整多个第三目标算子的顺序标识，且所述多个第三目标算子的顺序标识未全连续，则对所述多个第三目标算子的顺序标识进行调整，其中，所述目标算子包括所述第三目标算子，调整后的所述多个第三目标算子的顺序标识连续；

按照调整后的所述多个第三目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组。

7.根据权利要求5所述的方法，其中，按照所述关联关系和每个所述目标算子的顺序标识，将所述多个目标算子划分为所述至少一个算子组，包括：

响应于所述关联关系用于表征禁止调整多个第四目标算子的顺序标识，且所述多个第四目标算子的顺序标识未全连续，则将所述多个第四目标算子中所述顺序标识连续，且待在同一所述处理器上运行的至少两个所述第四目标算子划分为一个所述算子组，和/或，将所述多个第四目标算子中在所述处理器上未具有相邻的所述顺序标识的第四目标算子划分为一个所述算子组，其中，所述目标算子包括所述第四目标算子。

8.一种数据处理方法，包括：

获取目标模型的至少一个算子组，其中，所述至少一个算子组为按照所述目标模型的多个目标算子中每个所述目标算子在所述目标模型中的运行顺序划分得到；

针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

9.根据权利要求8所述的方法，其中，将每个所述算子组中至少一个目标算子在对应的处理器上依次运行，得到运行结果，包括：

响应于来自第一处理器的驱动指令，将每个所述算子组中至少一个目标算子在对应的所述第一处理器或第二处理器上依次运行，得到所述运行结果。

10.根据权利要求9所述的方法，在将每个所述算子组中至少一个目标算子在对应的所述第二处理器上依次运行，得到运行结果之后，所述方法还包括：

向所述第一处理器输出中断指令，其中，所述中断指令用于对所述第一处理器进行中断处理。

11.一种数据处理装置，包括：

第一获取单元，用于获取目标模型的多个目标算子；

划分单元，用于按照每个所述目标算子在所述目标模型中的运行顺序，将所述多个目标算子划分为至少一个算子组，其中，每个算子组中的目标算子由同一处理器运行，且每个算子组中的目标算子在同一目标运行时段内运行；

输出单元，用于输出所述至少一个算子组。

12.一种数据处理装置，包括：

第二获取单元，用于获取目标模型的至少一个算子组，其中，所述至少一个算子组为按照所述目标模型的多个目标算子中每个所述目标算子在所述目标模型中的运行顺序划分得到；

运行单元，用于针对每一个算子组，在同一目标运行时段内，将该算子组中的目标算子在同一处理器上运行，得到运行结果。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。