CN116303108B

CN116303108B - 一种适用于并行计算架构的权重地址排布方法

Info

Publication number: CN116303108B
Application number: CN202211091608.0A
Authority: CN
Inventors: 张宏宇; 蒲坤
Original assignee: Xinli Intelligent Technology Shanghai Co ltd
Current assignee: Xinli Intelligent Technology Shanghai Co ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2024-05-14
Anticipated expiration: 2042-09-07
Also published as: CN116303108A

Abstract

本发明涉及卷积神经网络技术领域，尤其为一种适用于并行计算架构的权重地址排布方法，包括：内存排布优化单元按计算顺序来排布权重在内存中的位置；任务拆分控制单元将神经网络计算任务拆分为多个可执行的子任务；直接内存读写控制单元将权重系数从内存搬移到多核处理器中。本发明在卷积神经网络并行计算架构中，按照输出通道将任务拆分到不同处理核中进行运算的需求，针对多任务间的权重系数设计一种高效的内存排布方式，可以显著提高任务执行效率，降低芯片片内存储空间压力。本发明按计算顺序来排布权重在内存中的位置确保权重的连续读取，可以减少内存读取的latency，优化计算。

Description

一种适用于并行计算架构的权重地址排布方法

技术领域

本发明涉及卷积神经网络技术领域，尤其是一种适用于并行计算架构的权重地址排布方法。

背景技术

卷积神经网络是一种带有卷积结构的深度神经网络，卷积结构可以减少深层网络占用的内存量。卷积神经网络常进行串行训练，但随着数据规模的增长，单机串行训练存在耗时长且占有较多的系统资源的问题。后改由卷积神经网络进行并行处理，但随着神经网络复杂度的提高，特征维度显著增加，权重系数占用的内存空间越来越大。并且芯片的片内存储空间有限，一个处理核中的缓存体量已难以存放所有权重系数。

发明内容

本发明的目的是通过提出一种适用于并行计算架构的权重地址排布方法，以解决上述背景技术中提出的缺陷。

本发明采用的技术方案如下：

提供一种适用于并行计算架构的权重地址排布方法，包括：

S1.1：内存排布优化单元按计算顺序来排布权重在内存中的位置；

S1.2：任务拆分控制单元将神经网络计算任务拆分为多个可执行的子任务；

S1.3：直接内存读写控制单元将权重系数从内存搬移到多核处理器中。

作为本发明的一种优选技术方案：所述S1.1中，包括如下步骤：

S2.1：将权重参数输出通道数按照每32字节拆分为一组；

S2.2：计算整个卷积核分组数量时，当中，n的值向上取整。

作为本发明的一种优选技术方案：所述S2.1中，支持每个卷积核数据类型为1字节、2字节和4字节。

作为本发明的一种优选技术方案：当卷积核数据类型为1字节时，每组支持存放32个权重参数输出通道；当卷积核数据类型为2字节时，每组支持存放16个权重参数输出通道；当卷积核数据类型为4字节时，每组支持存放8个权重参数输出通道。

作为本发明的一种优选技术方案：所述S2.2中，n的值向上取整，在最后一组中，不满32字节的部分，填充0补足32字节。

作为本发明的一种优选技术方案：所述S1.2中，包括如下步骤：

S3.1：按照权重参数输出通道每32字节拆分子任务；

S3.2：向上取整。

作为本发明的一种优选技术方案：由一个处理核执行一个或多个子任务。

作为本发明的一种优选技术方案：所述S1.3中，每组子任务权重系数通过S1.2在内存中均连续排布，按照直接内存突发读写的方式，将子任务的权重系数连续搬移到片内存储器中。

作为本发明的一种优选技术方案：所述每组子任务权重占用的初始地址为：分组编号*权重参数卷积核高度*权重参数卷积核宽度*权重参数输入通道数*32字节。

作为本发明的一种优选技术方案：每个子任务权重占用的地址数量为：权重参数卷积核高度*权重参数卷积核宽度*权重参数输入通道数*32字节。

本发明提供的适用于并行计算架构的权重地址排布方法，与现有技术相比，其有益效果有：

本发明在卷积神经网络并行计算架构中，按照输出通道将任务拆分到不同处理核中进行运算的需求，针对多任务间的权重系数设计一种高效的内存排布方式，可以显著提高任务执行效率，降低芯片片内存储空间压力。本发明按计算顺序来排布权重在内存中的位置确保权重的连续读取，可以减少内存读取的latency，优化计算。

附图说明

图1为本发明优选实施例的方法流程图；

图2为本发明优选实施例中权重参数通道图；

图3为本发明优选实施例中1字节卷积核数据类型图。

具体实施方式

需要说明的是，在不冲突的情况下，本实施例中的实施例及实施例中的特征可以相互组合，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明优选实施例提供了一种适用于并行计算架构的权重地址排布方法，包括：

所述S1.1中，包括如下步骤：

S2.1：将权重参数输出通道数按照每32字节拆分为一组；

S2.2：计算整个卷积核分组数量时，当中，n的值向上取整。

所述S2.1中，支持每个卷积核数据类型为1字节、2字节和4字节。

当卷积核数据类型为1字节时，每组支持存放32个权重参数输出通道；当卷积核数据类型为2字节时，每组支持存放16个权重参数输出通道；当卷积核数据类型为4字节时，每组支持存放8个权重参数输出通道。

所述S2.2中，n的值向上取整，在最后一组中，不满32字节的部分，填充0补足32字节。

所述S1.2中，包括如下步骤：

S3.1：按照权重参数输出通道每32字节拆分子任务；

S3.2：向上取整。

由一个处理核执行一个或多个子任务。

所述S1.3中，每组子任务权重系数通过S1.2在内存中均连续排布，按照直接内存突发读写的方式，将子任务的权重系数连续搬移到片内存储器中。

所述每组子任务权重占用的初始地址为：分组编号*权重参数卷积核高度*权重参数卷积核宽度*权重参数输入通道数*32字节。

所述每个子任务权重占用的地址数量为：权重参数卷积核高度*权重参数卷积核宽度*权重参数输入通道数*32字节。

本实施例中，参照图2、图3，内存排布优化单元包括：权重参数输出通道数(outputchannel,OCL)，权重参数输入通道数(input channel,ICL)，权重参数卷积核宽度W，权重参数卷积核高度H，卷积核数据类型format。

内存排布优化单元将OCL按照每32Byte拆分为一组，所述内存排布优化单元支持每个卷积核数据类型format为1Byte,2Byte,4Byte；当卷积核数据类型为1字节时，每组支持存放32个权重参数输出通道数；当卷积核数据类型为2字节时，每组支持存放16个权重参数输出通道数；当卷积核数据类型为4字节时，每组支持存放8个权重参数输出通道数。计算整个卷积核分组数量时，若OCL﹡format的值非32Byte的整数倍，需要所述公式进行归一化处理：OCL﹡format/32向上取整。在最后一组中，不满32Byte的部分，填充0补足32Byte。

在分组内，如图3以1Byte卷积核数据类型为例，依次摆ICL0的{H_0,W_0,OCL_0},{H_0,W_0,OCL_1},{H_0,W_0,OCL_2},…,{H_0,W_0,OCL_31},{H_0,W_1,OCL_0}，{H_0,W_1,OCL_1},…的方式排列好；当分组内的ICL0排列好后，紧随ICL0的地址按上述方法排列ICL1；按上述方法排列完所有ICL后，得到OCL0～OCL31下所有ICL的排列；在OCL0～OCL31排列完成后，紧随OCL0～OCL31的地址按上述方法排列OCL32～63；按上述方法依次排列完所有权重系数。

任务拆分控制单元中，按照权重OCL方向32Byte的个数拆分子任务；拆分子任务的数量等于OCL﹡format/32向上取整；以常见的7x7卷积核，即W＝7,H＝7为例。即使ICL数量多达1024时，每个子任务的权重大小为1568KB，尚在片内存储器容量的可接受范围内；所述子任务，可以由1个处理核执行1个，也可以1个处理核执行多个。

直接内存读写控制单元中，按所述任务拆分控制单元的方法，每组子任务的权重系数在内存中均连续排布；每组子任务权重占用的初始地址为：分组编号﹡H﹡W﹡ICL﹡32Byte；每个子任务权重占用的地址数量为：H﹡W﹡ICL﹡32Byte；按照直接内存突发读写的方式，将子任务的权重系数连续搬移到片内存储器中。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种适用于并行计算架构的权重地址排布方法，其特征在于：包括

S1.3：直接内存读写控制单元将权重系数从内存搬移到多核处理器中；

所述S1.2中，包括如下步骤：

S3.1：按照权重参数输出通道每32字节拆分子任务；

S3.2：拆分子任务的数量等于权重参数输出通道数向上取整；

所述S1.1中，包括如下步骤：

S2.1：将权重参数输出通道数按照每32字节拆分为一组；

S2.2：计算整个卷积核分组数量时，当中，n的值向上取整；

内存排布优化单元将OCL按照每32Byte拆分为一组，所述内存排布优化单元支持每个卷积核数据类型format为1Byte,2Byte,4Byte；当卷积核数据类型为1字节时，每组支持存放32个权重参数输出通道数；当卷积核数据类型为2字节时，每组支持存放16个权重参数输出通道数；当卷积核数据类型为4字节时，每组支持存放8个权重参数输出通道数。

2.根据权利要求1所述的适用于并行计算架构的权重地址排布方法，其特征在于：所述S2.1中，支持每个卷积核数据类型为1字节、2字节和4字节。

3.根据权利要求2所述的适用于并行计算架构的权重地址排布方法，其特征在于：当卷积核数据类型为1字节时，每组支持存放32个权重参数输出通道；当卷积核数据类型为2字节时，每组支持存放16个权重参数输出通道；当卷积核数据类型为4字节时，每组支持存放8个权重参数输出通道。

4.根据权利要求1所述的适用于并行计算架构的权重地址排布方法，其特征在于：所述S2.2中，n的值向上取整，在最后一组中，不满32字节的部分，填充0补足32字节。

5.根据权利要求1所述的适用于并行计算架构的权重地址排布方法，其特征在于：由一个处理核执行一个或多个子任务。

6.根据权利要求1所述的适用于并行计算架构的权重地址排布方法，其特征在于：所述S1.3中，每组子任务权重系数通过S1.2在内存中均连续排布，按照直接内存突发读写的方式，将子任务的权重系数连续搬移到片内存储器中。

7.根据权利要求6所述的适用于并行计算架构的权重地址排布方法，其特征在于：所述每组子任务权重占用的初始地址为：分组编号*权重参数卷积核高度*权重参数卷积核宽度*

权重参数输入通道数*32字节。

8.根据权利要求6所述的适用于并行计算架构的权重地址排布方法，其特征在于：每个子任务权重占用的地址数量为：权重参数卷积核高度*权重参数卷积核宽度*权重参数输入通道数*32字节。