CN115858178B

CN115858178B - 一种卷积计算中资源共享的方法、装置、介质及设备

Info

Publication number: CN115858178B
Application number: CN202310139977.0A
Authority: CN
Inventors: 赖斯龑; 张迪
Original assignee: Xinli Intelligent Technology Shanghai Co ltd
Current assignee: Xinli Intelligent Technology (Jiangsu) Co.,Ltd.
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-06
Anticipated expiration: 2043-02-21
Also published as: CN115858178A

Abstract

本公开实施例提供的一种基于卷积计算中资源共享的方法、装置、存储介质及电子设备，将任务拆分到不同的处理核中进行卷积计算，降低了对芯片的片内存储空间的消耗，同时，针对不同场景下存在Input Tensor和Weight共享的情况，进一步进行优化，根据不同的共享维度采用对应的拆分方式对输入数据进行拆分，节省处理核的存储空间，提高了数据传输效率，提高了计算单元的并发度，进而提高计算性能。

Description

一种卷积计算中资源共享的方法、装置、介质及设备

技术领域

本公开实施例涉及数据处理领域，具体地涉及一种卷积计算中资源共享的方法、装置、介质及设备。

背景技术

随着人工智能与深度学习技术的不断发展和普及，应用场景的不断增多，输入数据如图像、雷达、音频等，所占用的内存空间越来越大。但是芯片的片内存储空间有限，一个处理核中的缓存体量已难以存放所有数据。由此，如何优化内存的使用已成为亟待解决的问题。

发明内容

针对现有技术存在的上述问题，本发明的目的在于提供一种卷积计算中资源共享的方法、装置、介质及设备，以便于至少部分地解决上述问题。

根据本公开的一个方面，提出一种卷积计算中资源共享的方法，包括：

步骤S1，计算任务拆分成多个可执行的子任务，其中所述子任务以三维坐标Taskid（X，Y，Z）方式表示计算的切分，

步骤S2：基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据，

步骤S3：神经网络加速器根据子任务加载所述子数据及权重，并计算得到输出子数据，

其中，基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况，对所述输入数据拆分，

步骤S4：输出对应的输出子数据。

在一些实施例中，所述多个可执行子任务以轮询的方式发送至多个所述神经网络加速器，每个所述神经网络加速器可处理多组所述子任务。

在一些实施例中，所述神经网络加速器具体为张量处理器。

在一些实施例中，所述子任务具有编号，神经网络加速器基于所述子任务的编号加载对应的输入数据和卷积核，并基于所述子任务的编号输出对应的输出子数据。

在一些实施例中，所述基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况，对所述输入数据拆分，具体为，

对每个输入数据设置对应所述子任务3个维度的Flag（ShardX，SharedY，SharedZ），

当SharedX使能且SharedY，SharedZ不使能时，表示输入数据基于Task的Y，Z维度进行拆分，子任务在X维度上共享，

当SharedY使能且SharedX，SharedZ不使能时，表示输入数据基于Task的X，Z维度进行划分，子任务在Y维度上共享，

当SharedZ使能且SharedX，SharedY不使能时，表示输入数据基于Task的X，Y维度进行划分，子任务在Z维度上共享。

在一些实施例中，SharedX、SharedY或SharedZ任意两个可组合同时使能，或三者同时使能。

在一些实施例中，基于任务的大小对任务的不同维度分配对应的存储资源。

根据本公开的另一个方面，提出一种卷积计算中资源共享的装置，包括：

任务拆分模块，用于将计算任务拆分成多个可执行的子任务，其中所述子任务以三维坐标Task（X，Y，Z）方式表示计算的切分，

数据拆分模块，用于基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据，

计算模块，用于神经网络加速器根据子任务加载所述子数据及卷积核，并计算得到输出子数据，

输出模块，用于输出对应的输出子数据。

本申请实施例还提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的卷积计算中资源共享的方法中的步骤。

附图说明

图1为本申请实施例提供的卷积计算中资源共享的方法示意图。

图2为本申请实施例提供的计算任务切分示意图。

图3为本申请实施例提供的计算任务表达计算的切分示意图。

图4为本申请实施例提供的基于不同共享维度数据拆分示意图。

图5为本申请实施例提供的卷积计算中资源共享的装置示意图。

图6为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示对本发明结构的说明，仅是为了便于描述本发明的简便，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

对于本技术方案中的“第一”和“第二”，仅为对相同或相似结构，或者起相似功能的对应结构的称谓区分，不是对这些结构重要性的排列，也没有排序、或比较大小、或其他含义。

另外，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，连接可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个结构内部的连通。对于本领域的普通技术人员而言，可以根据本发明的总体思路，联系本方案上下文具体情况理解上述术语在本发明中的具体含义。

实施例一

具体地，请参阅图1，为本公开提供的一种卷积计算中资源共享的方法，本公开实施例中的所述卷积计算中资源共享的方法，可以用于包括多个神经网络加速器的芯片中，下面方法以多个神经网络加速器中的一个为例进行描述。具体步骤如下：

步骤S1，计算任务拆分成多个可执行的子任务，其中所述子任务以三维坐标Taskid（X，Y，Z）方式表示计算的切分。

在一些实施例中，神经网络加速器对应于多核处理中的处理核，所述神经网络加速器可以是TPU（tensor processing unit，张量处理器）、NPU（Neural networkProcessing Unit,神经网络处理器）等，如图2所示，为了高效计算，命令处理器（CommandProcessor）将整个计算过程切分（subdivision）成更细粒度的子任务Task，以轮询（Round Robin）的方式下发到神经网络加速器（Neural Network Accelerator）中并行计算，加快计算过程；每个NeuralNetwork Accelerator可处理多组Task。

在一些实施例中，如图3所示，计算任务（Task）以三维坐标Taskid（X，Y，Z）的方式表达计算的切分，Neural Network Accelerator依据Taskid加载输入张量数据（inputtensor）及权重（weight）进行计算，所述计算任务根据不同应用场景设定，所述inputtensor是卷积计算的输入数据，是可以运行在神经网络加速器上的多维数据，所述权重数据为所述卷积运算的权重数据，通常用卷积核表示；表示计算的切分的三维坐标，可以理解为在宽度或高度或深度三个维度（X，Y，Z）方向对计算数据进行切分，并在不同维度进行计算。

计算后依据Taskid将对应的输出子数据（output tensor）输出；根据Task的具体大小TaskSize(w_s, h_s, c_s)，示例性的Taskid(0,0,0)资源范围为(0,0,0) ~ (w_s, h_s, c_s)；Taskid(1,2,0) 资源范围为 (w_s, 2*h_s,0) ~ (2*w_s, 3*h_s, 0)，其中w_s,h_s, c_s均为大于0的自然数。

步骤S2：基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据。

在一些实施例中，所述输入数据可以是不同应用场景的具体数据，输入数据可以是图像、雷达、音频等。

其中，基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况，对所述输入数据拆分。

在一些实施例中，在加载过程中，如图4所示，Task之间在不同场景下存在InputTensor和Weight共享的情况。根据共享的具体情况，本公开设置共享掩模（ShareMask），具体地，对于每个输入数据定义了3个Flag（SharedX，SharedY，SharedZ），分别表示输入数据在三个维度（X，Y，Z）上是否为Task之间共享。

示例性的，当SharedX使能且SharedY，SharedZ不使能时，表示数据依据Task的Y，Z维度进行划分，在X维度上共享。每个Task在X维度共享，X维度资源范围为0~w，

当SharedY使能且SharedX，SharedZ不使能时，表示数据依据Task的X，Z维度进行划分，在Y维度上共享。每个Task在Y维度共享，Y维度资源范围为0~h，

当SharedZ使能且SharedX，SharedY不使能时，表示数据依据Task的X，Y维度进行划分，在Z维度上共享。每个Task在Z维度共享，Z维度资源范围为0~c。其中，w、h、c均为大于0的自然数。

可以理解的是，SharedX，SharedY，SharedZ之间可以任意进行使能组合，例如SharedX和SharedY同时使能或SharedX、SharedY和SharedZ三者同时使能。

在不同维度共享时，不同task所需要的对应资源是共享的，共享维度对应的资源是同一份，节约了NPU或TPU等处理器的存储空间。同时提高了数据传输效率与执行单元的并发度。

示例性地，例如Tensor A size: h=8, w=16, c=32;Weight B size: r=1, s=1,c=32，n(ocl)=64，;卷积计算后，计算结果C size: h=8, w=16, c=64；以共享Z维度（c方向）为例，可以理解的是，若不使用本公开的共享: Task size:h=8, w=8, c=8；计算一次卷积需要load A与B中的全部c方向数据，那需要load 4(32/8)个task才可以获取c方向数据；每次只load 8*8*8bit数据，传输效率低；若使用本公开的共享，在c方向share，Task size: h=8, w=8, c共享为32；计算一次卷积只需要load一个task就可以获取c方向数据。每次卷积都用到c方向数据，每一个task在卷积计算时对c方向数据是共享的，只需一份即可。降低了npu存储空间，同时每次load 8*8*32bit，提高数据传输效率；同时ShareMask的应用可以使task切分更细粒度，提高执行单元并发度。通过基于计算任务对不同维度的共享，基于不同的共享维度，采用不同的数据拆分方式，对内存资源进一步进行优化，提高计算性能。

步骤S4：输出对应的输出子数据。

在一些实施例中，可以理解的是，对于每个神经网络加速器，多个任务的顺序并不影响本公开的实施，TPU根据所述输入子数据及权重数据执行卷积计算子任务得到输出子数据，并输出所述输出子数据；将所述输出子数据合并后可得到最终的输出数据。卷积计算的具体过程，在此不再赘述。

实施例二

为实现上述目的，本实施例提出了一种卷积计算中资源共享的装置，请参阅图5，为本公开提供的一种卷积计算中资源共享的装置结构示意图。装置500包括：任务拆分模块501、数据拆分模块502、计算模块503、输出模块504；

任务拆分模块501，用于将计算任务拆分成多个可执行的子任务，其中所述子任务以三维坐标Task（X，Y，Z）方式表示计算的切分，

数据拆分模块502，用于基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据，

计算模块503，用于神经网络加速器根据子任务加载所述子数据及卷积核，并计算得到输出子数据，

输出模块504，用于输出对应的输出子数据。

实施例三

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端或者服务器。如图6所示，图6为本申请实施例提供的电子设备的结构示意图。

该电子设备600包括有一个或者一个以上处理核心的处理器601、有一个或一个以上计算机可读存储介质的存储器602及存储在存储器602上并可在处理器上运行的计算机程序。其中，处理器601与存储器602电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器601是电子设备600的控制中心，利用各种接口和线路连接整个电子设备600的各个部分，通过运行或加载存储在存储器602内的软件程序（计算机程序）和/或单元，以及调用存储在存储器602内的数据，执行电子设备600的各种功能和处理数据，从而对电子设备600进行整体监控。

在本申请实施例中，电子设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能：

步骤S4：输出对应的输出子数据。

以上各个操作的具体实施可参见前述的实施例，在此不再赘述。

可选的，如图6所示，电子设备600还包括：资源共享模块603、通讯模块604、输入单元605以及电源606。其中，处理器601分别与资源共享模块603、通讯模块604、输入单元605以及电源606电性连接。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

资源共享模块603可用于实现生成行情数据的模拟。

通讯模块604可用于与其他设备通信。

输入单元605可用于接收输入的数字、字符信息或用户特征信息（例如指纹、虹膜、面部信息等），以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源606用于给电子设备600的各个部件供电。可选的，电源606可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源606还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

实施例四

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的一种卷积计算中资源共享的方法的步骤。例如，该计算机程序可以执行如下步骤：

步骤S4：输出对应的输出子数据。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种卷积计算中资源共享方法中的步骤，因此，可以实现本申请实施例所提供的任一种卷积计算中资源共享方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种卷积计算中资源共享的方法，其特征在于，包括：

步骤S4：输出对应的输出子数据，

所述基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况，对所述输入数据拆分，具体为，

2.根据权利要求1所述的方法，其特征在于：

所述多个可执行子任务以轮询的方式发送至多个所述神经网络加速器，每个所述神经网络加速器可处理多组所述子任务。

3.根据权利要求1所述的方法，其特征在于：

所述神经网络加速器具体为张量处理器。

4.根据权利要求1所述的方法，其特征在于：

所述子任务具有编号，神经网络加速器基于所述子任务的编号加载对应的输入数据和卷积核，并基于所述子任务的编号输出对应的输出子数据。

5.根据权利要求1所述的方法，其特征在于：

SharedX、SharedY或SharedZ任意两个可组合同时使能，或三者同时使能。

6.根据权利要求1所述的方法，其特征在于：

基于任务的大小对任务的不同维度分配对应的存储资源。

7.一种卷积计算中资源共享的装置，其特征在于，包括：

输出模块，用于输出对应的输出子数据，

8.一种电子设备，其特征在于：包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；其中，所述处理器调用所述存储器中存储的可执行程序代码，执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。