CN113672196B

CN113672196B - 一种基于单数字信号处理单元的双乘法计算装置和方法

Info

Publication number: CN113672196B
Application number: CN202110804257.2A
Authority: CN
Inventors: 王宇宣; 朱子谦; 潘红兵; 朱德政
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-09-15
Anticipated expiration: 2041-07-16
Also published as: CN113672196A

Abstract

本发明提供了一种基于单数字信号处理单元的双乘法计算装置和方法。计算装置包括：输入处理单元，用于拼接具有公共乘数的两个被乘数得到长乘数；通用乘法器单元，用于计算长乘数与公共乘数的乘法运算；输出修正单元，用于根据公共乘数的符号位和第二被乘数的数值，对通用乘法器单元的输出结果进行拆分和修正，得到最终的输出值。该计算装置能够将共享乘数的两次短操作数乘法，合并为一次长操作数乘法，同时输出两个乘法结果。本发明适用有符号或无符号定点数的乘法，能有效提高复用同一乘数时，乘法操作的数据吞吐率和硬件资源利用率。

Description

一种基于单数字信号处理单元的双乘法计算装置和方法

技术领域

本发明涉及一种基于单数字信号处理单元的双乘法计算装置和方法，属于数字信号处理技术领域。

背景技术

目前的机器学习技术中，卷积神经网络是一种实用价值极高的神经网络。为了高效实现卷积神经网络的硬件部署，大量计算加速的研究应运而生。乘法是卷积神经网络的重要计算之一，但如何充分利用硬件资源进行乘法加速，却存在很多空白。

基于现场可编程逻辑门阵列(FPGA)，对卷积神经网络算法的硬件部署过程中，乘法器有基于查找表(LUT)和数字信号处理单元(DSP)的两种实现方案。由于LUT资源受限，因此乘法器的部署往往依赖DSP。但卷积神经网络中的乘法位宽往往远小于DSP的操作数位宽，因此造成了硬件资源的浪费。由于卷积核权重固定，在卷积过程中可作为多个激励的公共乘数，一些研究据此将多个激励拼接为长操作数与权值相乘，对结果进行截位后，就能通过一次乘法操作得到多个结果。但该方法仅限于无符号数之间的运算，不能通用有符号数的乘法。

卷积神经网络使用的非线性激活函数和数据增强方法，对提高网络的性能有重要作用，而这些操作通常会产生有符号数；因此，将一次DSP乘法实现多个卷积乘法的适用范围，拓展到有符号数的乘法就十分必要。

发明内容

为了使卷积神经网络能够获得较快的运算速度和使用较少的电路资源，本发明针对复用相同乘数的有符号定点数乘法，提出了一种基于单数字信号处理单元的双乘法计算装置和方法。

本发明装置的技术方案如下：

一种基于单数字信号处理单元的双乘法计算装置，该装置包括：输入处理单元，用于拼接具有公共乘数w的两个被乘数x₁和x₂，拼接后得到的长乘数从高位到低位依次为：被乘数x₁、保留位、被乘数x₂绝对值的长乘数x；通用乘法器单元，用于计算长乘数x与公共乘数w的乘法运算；输出修正单元，用于根据公共乘数w的符号位和被乘数x₂的数值，对通用乘法器单元的输出结果进行拆分和修正，得到待求乘积y₁＝x₁*w和y₂＝x₂*w的输出值。

进一步地，所述通用乘法器单元仅包括一个基于单数字信号处理单元的乘法器。

进一步地，所述输入处理单元包括取绝对值单元和输入拼接单元。

进一步地，所述输出修正单元包括乘积拆分单元和乘积修正单元。

本发明还提供一种基于单数字信号处理单元的双乘法计算方法，该方法基于单数字信号处理单元的一次乘法运算，计算共享同一乘数的两次定点数乘法的结果，具体步骤包括：(1)将具有公共乘数的两个被乘数拼接为一个长乘数；(2)将所述长乘数与公共乘数进行乘法操作，得到长乘数与公共乘数的积；(3)根据两个被乘数与公共乘数的位宽，将步骤(2)计算得到的长乘数与公共乘数的积，拆分成两个待求乘积的中间结果；根据第二个被乘数的符号位，对第二个被乘数与公共乘数乘积的中间结果进行修正，得到第二个被乘数与公共乘数的乘积；根据第二个被乘数是否为零与公共乘数的符号位，对第一个被乘数与公共乘数乘积的中间结果进行修正，得到第一个被乘数与公共乘数的乘积。

进一步地，所述步骤(1)中，长乘数从高位到低位依次为第一个被乘数，保留位和第二个被乘数的绝对值；其中保留位为位宽与公共乘数相同的若干零。

进一步地，所述步骤(3)中，第一个被乘数与公共乘数乘积的中间结果，为长乘数与公共乘数的积的最高若干位，位宽等于第一个被乘数位宽与公共乘数位宽之和；第二个被乘数位宽与公共乘数乘积的中间结果，为长乘数与公共乘数的积的最低若干位，位宽等于第二个被乘数位宽与公共乘数位宽之和。

进一步地，如果公共乘数的符号位为1，且第二个被乘数不为零，则第一个被乘数与公共乘数的乘积最终结果为：第一个被乘数与公共乘数乘积的中间结果加1；否则，第一个被乘数与公共乘数的乘积最终结果为：第一个被乘数与公共乘数乘积的中间结果；如果第二个被乘数小于零，则第二个被乘数与公共乘数的乘积最终结果为：第二个被乘数与公共乘数乘积中间结果的相反数；否则，第二个被乘数与公共乘数的乘积最终结果为：第二个被乘数与公共乘数乘积的中间结果。

本发明具有以下有益效果：

(1)本发明提供的基于单数字信号处理单元的双乘法计算装置，可以计算任意有符号数或无符号数的乘法，具有一定的通用性。

(2)充分利用了数字信号处理单元的位宽，提高了计算资源的利用率，降低了计算资源的消耗，节省了LUT开销，并且有效提高了卷积运算的数据吞吐率。

(3)能够将共享乘数的两次短操作数乘法，合并为一次长操作数乘法，同时输出两个乘法结果，提高了运算速度，增加了数据吞吐率。

(4)利用少量修正资源，实现单DSP一次运算实现两次乘法，整体计算资源消耗小于单独例化两个乘法器的消耗，有利于有限计算资源的灵活部署。

附图说明

图1是本发明计算装置的整体架构图。

图2是有符号定点数的示意图。

图3是输入处理单元输出数据格式的示意图。

图4是输入处理单元的内部结构示意图。

图5是输出修正单元的内部结构示意图。

图6是FPGA平台下利用本发明部署卷积运算单元的示意图。

具体实施方式

以下结合附图对本发明方案进行详细说明。

图1是本发明的基于单数字信号处理单元的双乘法计算装置的结构示意图。计算装置包括输入处理单元，用于拼接共享同一乘数的两个被乘数x₁和x₂，拼接后得到的长乘数从高位到低位依次为：被乘数x₁、保留位、被乘数x₂绝对值的长乘数x；通用乘法器单元，用于计算长乘数x与公共乘数w的乘法运算；输出修正单元，用于根据公共乘数w的符号位和被乘数x₂的数值，对通用乘法器单元的输出结果进行拆分和修正，得到待求乘积y₁＝x₁*w和y₂＝x₂*w。

本实施例有符号定点数的表示形式如图2所示，分为符号位和数值位。对于一个n位的有符号定点数x，如果其二进制表示为a_n-1a_n-2…a₁a₀，则其表示的十进制值为：

根据有符号定点数每一位的权值，可以得到以下推导：对一个位宽为(A+B+C)的有符号数，其最高A位可视为一有符号数乘以2^(B+C)后的值，最低C位可视为一无符号数。据此，一最高A位为有符号数a＝a_A-1a_A-2…a₁a₀，中间B位均为零，最低C位为无符号数c＝c_C-1c_C-2…c₁c₀的有符号数X的值可表示为：

X＝a*2^(B+C)+c (2)

该有符号数与一位宽为B的有符号数b＝b_B-1b_B-2…b₁b₀的乘积P为：

P＝X*b＝a*b*2^(B+C)+c*b (3)

由二进制数的乘法规则可知，位宽为M和N的数相乘，其有效位宽不会超过(M+N)，因此乘积P的两部分p₁＝a*b*2^(B+C)与p₂＝c*b的有效位不会发生重叠，且其有效位分别对应乘积P的高(A+B)位和低(B+C)位。根据这一性质，若通过一次乘法计算两个位宽分别A和C的有符号数x₁、x₂与位宽为B的公共乘数w，可设置一位宽为(A+B+C)的有符号数x作为长乘数，将x₁置于x的高A位，将x₂的绝对值|x₂|置于x的低C位。其中长乘数x的值如下所示，在实施例中通过位拼接操作实现，图3展示了长乘数x的形式：

x＝x₁*2^(B+C)+|x₂| (4)

|x₂|在实施例中的求解如(5)所示。其中sign(x₂)为x₂的符号位，即最高位；为x₂按位取反的值：

注意128和-128的8位二进制表示相同，因此不存在溢出的情况。

由公式(3)得到的x与w的乘积y为：

y＝x*w＝x₁*w*2^(B+C)+|x₂|*w (6)

易知y为一位宽为(A+2B+C)的有符号数。取y的高(A+B)位作为x₁*w的中间结果低(B+C)位作为x₂*w的中间结果/>中间结果的含义是，该结果并非最终的乘法运算结果，需要根据乘数的性质进行修正，结果修正的依据和方法如下：

由公式(6)可知，当w＜0且|x₂|≠0时，低位的运算结果为一负数，由计算机执行有符号数乘法的原理可知，当w＜0且|x₂|≠0时，低位的位扩展会对高位结果产生干扰，影响高位结果的准确性，由x₂和w的位宽可知：

||x₂|*w|≤|(2^C-1)*(-2)^B|＜2^(B+c) (7)

由公式(1)可知，虽然截位后的可视为有符号数，但在y中被视为一正数/>因此由公式(7)得，y的真值满足：

公式(8)中第二个不等号在|x₂|*w≥0时等号成立，此情况下，高位的中间结果恰好等于x₁*w的真值y₁；否则由公式(8)易得，/>由此得到实施例中y₁的修正方法：

由公式(6)可知，将看作有符号数时，其取值满足以下条件：

由公式(10)得到实施例中y₂的修正方法，其中sign(x₂)是乘数x₂的符号位，为为按位取反的值：

至此，整个计算过程完成。

实施例

(1)利用本发明计算装置来计算8比特无符号定点数乘法，被乘数x₁、x₂的取值分别为-117(10001011)和34(00100010)，公共乘数w为-50(11001110)，则长乘数x位宽为24，保留位为八个0，乘法器定义为24bit*8bit有符号数乘法器，计算将依次经过以下处理单元完成：

输入处理单元：如图4所示，包括取绝对值单元和输入拼接单元，首先，取绝对值单元对被乘数x₂取绝对值，本实施例中x₂＝34，则输出为|x₂|＝34(0010 0010)；然后，将被乘数x₁，保留位与|x₂|按从高位到低位的顺序由输入拼接单元拼接为长乘数x，结果为100010110000000000100010。

通用乘法器单元：执行长乘数x与公共乘数w的有符号乘法，输出中间结果y。此例中y的结果为00010110110110011111100101011100。

输出修正单元：如图5所示，包括乘积拆分单元和两个乘积修正单元。首先，乘积拆分单元根据被乘数x₁、x₂和公共乘数w的位宽，得到中间结果y的拆分方式。在本实施例中，y的高16位为x₁*w的中间结果(0001 0110 1101 1001)，低16位为x₂*w的中间结果/>(1111100101011100)。然后，根据公式(9)判断待求乘积y₁＝x₁*w的取值：本实施例中，由于w的符号位为1，且x₂≠0，因此/>结果为0001 0110 1101 1010，即5850；根据公式(11)判断的待求乘积y₂＝x₂*w的取值：本实施例中，x₂符号位为0，因此/>结果为1111100101011100，即-1700。

在Xilinx的Vivado 2018.2下，基于开发板ZynqUltraScale+ZCU102 EvaluationBoard，综合本发明的硬件设计，本实施例与相同功能乘法器计算资源开销的对比如下表所示：

表1计算开销对比

本实施例的LUT消耗远小于完全基于LUT搭建的乘法器，在充分利用DSP位宽的同时，有效缓解了特定算法在硬件部署过程中，LUT资源开销过大的问题。本实施例所用FF(Flip Flop，触发器)的数量也大大减少。同时，本实施例基于单次DSP乘法计算，得到两次乘法的结果，利用相同硬件资源，使复用公共因子的有符号数乘法数据吞吐率翻倍。

(2)本实施例以卷积神经网络的硬件部署为例，说明本发明提供的计算装置如何进行实际部署。图6所示的3*3卷积计算单元中，部署了三个本发明的计算装置(用“*”表示)。其中每个装置负责计算不同行的激励和权重，数字代表激励或权重在该行数据中的顺序。本发明的计算装置每个时钟周期可同时输入行方向上连续的两个激励值，与该行对应的权重进行乘法，每三个周期输出两个卷积结果，实现了卷积乘法的计算加速。

(3)本实施例以最低位权值为2ⁱ(i为不为零的整数)的有符号定点数为例，说明本发明提供的计算方法的普适性。假设被乘数x₁(A bit)、x₂(B bit)和公共乘数w(C bit)最低位的权值依次为2^a,2^b,2^c，不失一般性地，按照本发明提供的计算方法得到的待求乘积y₁,y₂，其二进制形式不依赖最低位权值的大小。在二进制转换为十进制时，将y₁最低位权值视为2^a+b，y₂最低位权值视为2^b+c进行转换，即可得到正确的结果。或者假设小数点左边一位权值为1，如果不存在小数点，则最低位权值为1。在该假设下判断a+b(或b+c)的值，若大于零，则在结果y₁(或y₂)的右边补|a+b|(或|b+c|)为零，则其结果由具体实施方法一节的公式(1)给出。若小于零，则在y₁(或y₂)从最低位起第|a+b|(或|b+c|)的左边打小数点，也可以得到各位权值含义明确的二进制有符号数。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。

Claims

1.一种基于单数字信号处理单元的双乘法计算装置，其特征在于，包括：

输入处理单元，用于拼接具有公共乘数w的两个被乘数x₁和x₂，拼接后得到的长乘数从高位到低位依次为：被乘数x₁、保留位、被乘数x₂绝对值的长乘数x；

通用乘法器单元，用于计算长乘数x与公共乘数w的乘法运算，仅包括一个基于单数字信号处理单元的乘法器；

输出修正单元，用于根据公共乘数w的符号位和被乘数x₂的数值，对通用乘法器单元的输出结果进行拆分和修正，得到待求乘积y₁＝x₁*w和y₂＝x₂*w的输出值；具体为：根据两个被乘数与公共乘数w的位宽，将所述通用乘法器单元计算得到的长乘数x与公共乘数w的积，拆分成两个待求乘积的中间结果；根据第二个被乘数x₂的符号位，对被乘数x₂与公共乘数w乘积的中间结果进行修正，得到被乘数x₂与公共乘数w的乘积；根据被乘数x₂是否为零与公共乘数w的符号位，对第一个被乘数x₁与公共乘数w乘积的中间结果进行修正，得到被乘数x₁与公共乘数的乘积；

如果公共乘数w的符号位为1，且被乘数x₂不为零，则被乘数x₁与公共乘数w的乘积最终结果为：被乘数x₁与公共乘数w乘积的中间结果加1；否则，被乘数x₁与公共乘数w的乘积最终结果为：被乘数x₁与公共乘数w乘积的中间结果；如果被乘数x₂小于零，则被乘数x₂与公共乘数w的乘积最终结果为：被乘数x₂与公共乘数w乘积中间结果的相反数；否则，被乘数x₂与公共乘数w的乘积最终结果为：被乘数x₂与公共乘数w乘积的中间结果。

2.根据权利要求1所述的基于单数字信号处理单元的双乘法计算装置，其特征在于，所述输入处理单元包括取绝对值单元和输入拼接单元。

3.根据权利要求1所述的基于单数字信号处理单元的双乘法计算装置，其特征在于，所述输出修正单元包括乘积拆分单元和乘积修正单元。

4.根据权利要求1所述的基于单数字信号处理单元的双乘法计算装置，其特征在于，所述输入处理单元中的保留位为位宽与公共乘数w相同的若干零。

5.根据权利要求1所述的基于单数字信号处理单元的双乘法计算装置，其特征在于，被乘数x₁与公共乘数w乘积的中间结果，为长乘数x与公共乘数w的积的最高若干位，位宽等于被乘数x₁位宽与公共乘数w位宽之和；被乘数x₂与公共乘数w乘积的中间结果，为长乘数x与公共乘数w的积的最低若干位，位宽等于被乘数x₂位宽与公共乘数w位宽之和。