CN112783473A

CN112783473A - 一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法

Info

Publication number: CN112783473A
Application number: CN202110071298.5A
Authority: CN
Inventors: 包振山; 詹康; 张文博
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-11
Anticipated expiration: 2041-01-20
Also published as: CN112783473B

Abstract

本发明提供了一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法，其特点是扩展了FPGA中DSP对低位宽乘法计算的支持，使得一个DSP能够同时计算6个4Bit和3Bit整形数据输入7Bit整形数据输出的乘法运算，充分发挥了低位宽计算优势，大幅度提高计算并行度，减少资源消耗，进而提升计算速度降低功耗。

Description

一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法

技术领域

本发明涉及硬件加速数值计算领域，尤其涉及一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法。

背景技术

近年来，卷积神经网络(Convolutional Neural Network，CNN)算法在图像分类、目标检测、语音识别和自然语言处理等众多领域相比于传统算法显示出了巨大优势，其在一些图像识别任务上甚至超过了人类的准确率。但是主流的CNN模型包含数百万个浮点参数，并且需要数十亿次浮点操作才能完成单个图像的计算任务。例如，AlexNet包含244MB参数，分类一张图片需要14亿次浮点运算(1.4GFLOP)，VGG-16包含552MB参数，分类一张图片需要310亿次浮点运算(31.0GFLOP)。巨大的计算量和存储量使得这些算法难以部署应用到资源受限的移动设备、嵌入式终端上。目前主流方案是将其部署在数据中心使用多核CPU或GPU计算，然而这样也会存在因功耗过高带来的高额电费成本压力，或因网络条件受限导致的计算结果传递延时等问题。

为了解决上述问题当前行之有效的方法是对神经网络做模型压缩处理，其中最高效的方法之一是神经网络量化，将卷积神经网络中的权值和激活值从原始的浮点类型量化到低位宽整形(4Bit或3Bit)，而算法精度几乎没有损失。量化后所需要的储存空间降低了87.5％以上，计算形式也从原始的浮点型运算变为了代价更小低位宽整形数据计算。

然而当前主流CNN加速计算器件，无论是CPU、GPU或者市面上的一些ASIC，都不能对这种低位宽数据的密集计算提供很好的支持，使得低位宽量化神经网络的优势无法得到充分地发挥。

对于这种低位宽的密集计算，FPGA有着独一无二的优势，但是FPGA加速计算的并行度取决于其中DSP的数量，现有的方法最多只能用一个DSP实现两个乘法运算，也不能完全将这种低位宽计算优势完全发挥出来。

本发明以此为切入点扩展了FPGA中DSP对低位宽乘法计算的支持，使得低位宽计算的优势能够充分发挥。

发明内容

本发明采取的技术方案如下：

所述的一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法实现的计算描述如下：

输入：3个3Bit无符号整型数据a₀，a₁，a₂，即a₀，a₁，a₂∈{0，1，2，...，6，7}。

2个4Bit有符号整形数据w₀，w₁，即w₀，w₁∈{-8，-7，-6，...-1，0，1，...，5，6，7}。

输出：6个7Bit有符号整形数据w₀a₀，w₀a₁，w₀a₂，w₁a₀，w₁a₁，w₁a₂，即 w₀a₀，w₀a₁，w₀a₂，w₁a₀，w₁a₁，w₁a₂∈{-64，-63，-62，...，-1，0，1，...，61，62，63}。

所实现的具体计算形式如公式1所示。根据矩阵乘法计算法则其一共包含6次乘法计算。

公式1所述的计算由一个DSP单元实现，在此以Xilinx FPGA中的DSP48E2实现该功能为例，其具体包含以下步骤：

步骤1.设置DSP48E2工作在乘加模式下，其实现的计算与各端口的关系可以表示为：

P＝(A+D)×B+C#(2)

其中A，D为27Bit补码输入端口，B为18Bit补码输入端口，C为48Bit补码输入端口，P为48Bit补码输出端口。

步骤2.设置数据输入，使A＝w₀，D＝2²¹w₁，B＝a₀+2⁷a₁+2¹⁴a₂，C＝0。

其中A＝w₀的具体操作为：将4Bit数据w₀赋值到端口A的第0到第3位上，端口A的第4到最高位赋值为w₀的符号位数值。

D＝2²¹w₁的具体操作为：将4Bit数据w₁赋值到端口D的第21到第24位上，端口D的第25到最高位赋值为w₁的符号位数值，第0到第20位置为0。

B＝a₀+2⁷a₁+2¹⁴a₂的具体操作为：将3个3Bit的数据a₀，a₁，a₂分别赋值到B端口的第0到第2位上、第7到第9位上和第14到第16位上，其余各个数据位置零。

C＝0的具体操作为：将端口C所有数据位置零。

步骤3：使用DSP计算，计算表达式如公式3所示。

(w₀+2²¹w₁)×(a₀+2⁷a₁+2¹⁴a₂)＝w₀a₀+2⁷w₀a₁+2¹⁴w₀a₂+2²¹w₁a₀+2²⁸w₁a₁+2³⁵w₁a₂#(3)

计算完成后由P端口输出初步计算结果为：P＝w₀a₀+2⁷w₀a₁+2¹⁴w₀a₂+ 2²¹w₁a₀+2²⁸w₁a₁+2³⁵w₁a₂。

步骤4：提取计算结果，其方法如公式4所示。

其中P(α，β)表示提取P端口中第β到α位的数据(包含α，β位)并以补码格式返回，α，β 为正整数且0≤β＜α≤41，

表示P端口的第

位数据，返回0或者1，

为正整数且

例如公式4中w₀a₁＝P(13，7)+P(6)表示w₀a₁的值为P端口的第7到13位的7位有符号数值加上第6位上的数值。

由上述步骤实现本发明所述方法，其定制的电路能够在一个时钟周期内完成6个乘法计算。

本发明的有益效果是：

本发明提出的使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法实现了使用一个DSP同时计算6个4Bit和3Bit整形数据输入7Bit整形数据输出的乘法运算，比起现有的方法最多只能用一个DSP实现两个乘法运算，大幅度提高了计算效率。

附图说明

图1为DSP48E2工作在乘加模式下示意图。

图2为使用一个DSP同时计算六个乘法示意图。

图3为基于DSP的同时计算六个乘法的低位宽乘法器电路示意图。

图4为矩阵计算处理单元(PE)示意图。

图5为加法树电路示意图。

图6为矩阵计算模块示意图。

具体实施方式

下面结合附图对本发明进行进一步说明。

一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法的具体实施以Xilinx FPGA中的DSP48E2单元为例，其包含以下步骤：

步骤1.设置DSP48E2工作在乘加模式下，电路示意图如图1所示，其实现功能如公式2所示。

步骤2.设置数据输入。A，B，D端口对应的数据输入格式如图2上半部分所示。

具体地，对A端口的操作为，将4Bit的输入数据w₀赋值到端口A的第0到第3位上，端口A的第4到最高位赋值为w₀的符号位数值。对端口D的操作为，将4Bit数据w₁赋值到端口D的第21到第24位上，端口D的第25到最高位赋值为w₁的符号位数值，第0到第 20位置为0。对端口B的操作为，将3个3Bit的数据a₀，a₁，a₂分别赋值到B端口的第0到第2位上、第7到第9位上和第14到第16位上，其余各个数据位置零。图中每个小格标识一个Bit位，数据部分用不同的颜色标识了出来且用“1，2，3”标识数据位，“$”符号为对应数据的符号位，空白的小格标识0。端口C所有的Bit位上数值恒为0，所以没有在图2中表示出来。

步骤3：使用DSP计算，得到的初步计算结果由P端口输出。

步骤4：提取计算结果。将P端口中的初步计算数据取出并以7Bit间隔分割，将分割后的数据按照图2下半部分的方式处理，得到最终计算的结果。图中用不同的颜色标识了分割后的数据，“$”为各个数据对应的符号位。

进一步地将上述操作实现为电路如图3所示，其输入3个3Bit无符号数据和2个4Bit 有符号数据，输出6个7Bit计算结果。图中的“结果修正模块”实现图2中下半部分的功能，由5个1Bit和7Bit整形数据输入7Bit整形数据输出的加法器组成。

为了使本发明技术方案及优点更加清楚明白在此给出一种应用案例，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施实例仅仅是本发明的一种应用案例。

如图4所示使用本发明所述的低位宽乘法器所设计的用于量化卷积神经网络计算加速中的矩阵计算的基本处理单元，其由N_p个低位宽乘法器，一个数据选择器，6个加法树模块，和6个累加器组成。

所述的数据选择器连接低位宽乘法器与加法树模块，将每个低位宽乘法器计算得到的6结果分别输出到对应的6个加法树模块中。

所述的加法树模块如图5所示，其由N_p-1个加法器组成，功能是对接收的N_p个数据进行求和运算。

所述的累加器由一个加法器组成，功能是对输入数据进行累加操作。

矩阵计算的基本处理单元对数据的处理步骤为：

步骤1.N_p个低位宽乘法器并行接收输入数据，进行并行乘法计算，计算完成后按图3电路所示方式每个低位宽乘法器输出6个7Bit补码数据的计算结果。

步骤2.加法树模块通过数据选择器接收输入数据，并进行求和计算。数据选择规则是：自上而下6个加法树模块，分别对应接收每个低位宽乘法器输出的 w₀a_0，w₀a₁，w₀a₂，w₁a₀，w₁a₁，w₁a₂。

步骤3.累加器接收加法树模块的计算结果，进行累加计算后输出。

上述各模块通过流水线并行运行。该处理单元所执行的计算可以表示为：

其中

为3行

列矩阵，

为

行2列矩阵，Z_3·2为3行2列矩阵，n为正整数。

将M_p个上述的矩阵计算单元组合所得到的矩阵计算模块，如图6所示，其包含输出缓冲区，M_p个处理单元，输出缓冲区，数据排列顺序调整模块等组成部分。输入输出缓冲区的作用是缓存一次计算所需要的数据，数据排列顺序调整模块将输出矩阵重新调整为行主序形式。矩阵计算模块接收数据输入流，经计算后输出结果。

通过N_p，M_p两个参数，可以调节矩阵计算模型的并行度，用以平衡计算速度与资源消耗。当设置N_p＝32，M_p＝8时，消耗256个DSP单元，在250MHZ的运行频率下，吞吐量可达768GOPS。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法，其特征在于：

所述的计算方法输入为3个3Bit无符号整型数据a₀，a₁，a₂，和2个4Bit有符号整形数据w₀，w₁；输出为6个7Bit有符号整形数据w₀a₀，w₀a₁，w₀a₂，w₁a₀，w₁a₁，w₁a₂；实现的计算形式如公式1所示；

所述的使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法包括如下步骤：

P＝(A+D)×B+C#(2)

其中A，D为27Bit补码输入端口，B为18Bit补码输入端口，C为48Bit补码输入端口，P为48Bit补码输出端口；

步骤2.设置数据输入，使A＝w₀，D＝2²¹w₁，B＝a₀+2⁷a₁+2¹⁴a₂，C＝0；

其中A＝w₀的具体操作为：将4Bit数据w₀赋值到端口A的第0到第3位上，端口A的第4到最高位赋值为w₀的符号位数值；

D＝2²¹w₁的具体操作为：将4Bit数据w₁赋值到端口D的第21到第24位上，端口D的第25到最高位赋值为w₁的符号位数值，第0到第20位置为0；

B＝a₀+2⁷a₁+2¹⁴a₂的具体操作为：将3个3Bit的数据a₀，a₁，a₂分别赋值到B端口的第0到第2位上、第7到第9位上和第14到第16位上，其余各个数据位置零；

C＝0的具体操作为：将端口C所有数据位置零；

步骤3：使用DSP计算，计算表达式如公式3所示；

计算完成后由P端口输出初步计算结果为：P＝w₀a₀+2⁷w₀a₁+2¹⁴w₀a₂+2²¹w₁a₀+2²⁸w₁a₁+2³⁵w₁a₂；

步骤4：提取计算结果，其方法如公式4所示；

其中P(α，β)表示提取P端口中第β到α位的数据(包含α，β位)并以补码格式返回，α，β为正整数且0≤β＜α≤41，

表示P端口的第

位数据，返回0或者1，

为正整数且

2.根据权利要求1所述的一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法，其特征在于：由所述的计算方法所定制的电路在一个时钟周期内完成计算。