CN113672196A - 一种基于单数字信号处理单元的双乘法计算装置和方法 - Google Patents

一种基于单数字信号处理单元的双乘法计算装置和方法 Download PDF

Info

Publication number
CN113672196A
CN113672196A CN202110804257.2A CN202110804257A CN113672196A CN 113672196 A CN113672196 A CN 113672196A CN 202110804257 A CN202110804257 A CN 202110804257A CN 113672196 A CN113672196 A CN 113672196A
Authority
CN
China
Prior art keywords
multiplier
multiplicand
product
common
multiplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110804257.2A
Other languages
English (en)
Other versions
CN113672196B (zh
Inventor
王宇宣
朱子谦
潘红兵
朱德政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110804257.2A priority Critical patent/CN113672196B/zh
Publication of CN113672196A publication Critical patent/CN113672196A/zh
Application granted granted Critical
Publication of CN113672196B publication Critical patent/CN113672196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7817Specially adapted for signal processing, e.g. Harvard architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Neurology (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于单数字信号处理单元的双乘法计算装置和方法。计算装置包括:输入处理单元,用于拼接具有公共乘数的两个被乘数得到长乘数;通用乘法器单元,用于计算长乘数与公共乘数的乘法运算;输出修正单元,用于根据公共乘数的符号位和第二被乘数的数值,对通用乘法器单元的输出结果进行拆分和修正,得到最终的输出值。该计算装置能够将共享乘数的两次短操作数乘法,合并为一次长操作数乘法,同时输出两个乘法结果。本发明适用有符号或无符号定点数的乘法,能有效提高复用同一乘数时,乘法操作的数据吞吐率和硬件资源利用率。

Description

一种基于单数字信号处理单元的双乘法计算装置和方法
技术领域
本发明涉及一种基于单数字信号处理单元的双乘法计算装置和方法,属于数字信号处理技术领域。
背景技术
目前的机器学习技术中,卷积神经网络是一种实用价值极高的神经网络。为了高效实现卷积神经网络的硬件部署,大量计算加速的研究应运而生。乘法是卷积神经网络的重要计算之一,但如何充分利用硬件资源进行乘法加速,却存在很多空白。
基于现场可编程逻辑门阵列(FPGA),对卷积神经网络算法的硬件部署过程中,乘法器有基于查找表(LUT)和数字信号处理单元(DSP)的两种实现方案。由于LUT资源受限,因此乘法器的部署往往依赖DSP。但卷积神经网络中的乘法位宽往往远小于DSP的操作数位宽,因此造成了硬件资源的浪费。由于卷积核权重固定,在卷积过程中可作为多个激励的公共乘数,一些研究据此将多个激励拼接为长操作数与权值相乘,对结果进行截位后,就能通过一次乘法操作得到多个结果。但该方法仅限于无符号数之间的运算,不能通用有符号数的乘法。
卷积神经网络使用的非线性激活函数和数据增强方法,对提高网络的性能有重要作用,而这些操作通常会产生有符号数;因此,将一次DSP乘法实现多个卷积乘法的适用范围,拓展到有符号数的乘法就十分必要。
发明内容
为了使卷积神经网络能够获得较快的运算速度和使用较少的电路资源,本发明针对复用相同乘数的有符号定点数乘法,提出了一种基于单数字信号处理单元的双乘法计算装置和方法。
本发明装置的技术方案如下:
一种基于单数字信号处理单元的双乘法计算装置,该装置包括:输入处理单元,用于拼接具有公共乘数w的两个被乘数x1和x2,拼接后得到的长乘数从高位到低位依次为:被乘数x1、保留位、被乘数x2绝对值的长乘数x;通用乘法器单元,用于计算长乘数x与公共乘数w的乘法运算;输出修正单元,用于根据公共乘数w的符号位和被乘数x2的数值,对通用乘法器单元的输出结果进行拆分和修正,得到待求乘积y1=x1*w和y2=x2*w的输出值。
进一步地,所述通用乘法器单元仅包括一个基于单数字信号处理单元的乘法器。
进一步地,所述输入处理单元包括取绝对值单元和输入拼接单元。
进一步地,所述输出修正单元包括乘积拆分单元和乘积修正单元。
本发明还提供一种基于单数字信号处理单元的双乘法计算方法,该方法基于单数字信号处理单元的一次乘法运算,计算共享同一乘数的两次定点数乘法的结果,具体步骤包括:(1)将具有公共乘数的两个被乘数拼接为一个长乘数;(2)将所述长乘数与公共乘数进行乘法操作,得到长乘数与公共乘数的积;(3)根据两个被乘数与公共乘数的位宽,将步骤(2)计算得到的长乘数与公共乘数的积,拆分成两个待求乘积的中间结果;根据第二个被乘数的符号位,对第二个被乘数与公共乘数乘积的中间结果进行修正,得到第二个被乘数与公共乘数的乘积;根据第二个被乘数是否为零与公共乘数的符号位,对第一个被乘数与公共乘数乘积的中间结果进行修正,得到第一个被乘数与公共乘数的乘积。
进一步地,所述步骤(1)中,长乘数从高位到低位依次为第一个被乘数,保留位和第二个被乘数的绝对值;其中保留位为位宽与公共乘数相同的若干零。
进一步地,所述步骤(3)中,第一个被乘数与公共乘数乘积的中间结果,为长乘数与公共乘数的积的最高若干位,位宽等于第一个被乘数位宽与公共乘数位宽之和;第二个被乘数位宽与公共乘数乘积的中间结果,为长乘数与公共乘数的积的最低若干位,位宽等于第二个被乘数位宽与公共乘数位宽之和。
进一步地,如果公共乘数的符号位为1,且第二个被乘数不为零,则第一个被乘数与公共乘数的乘积最终结果为:第一个被乘数与公共乘数乘积的中间结果加1;否则,第一个被乘数与公共乘数的乘积最终结果为:第一个被乘数与公共乘数乘积的中间结果;如果第二个被乘数小于零,则第二个被乘数与公共乘数的乘积最终结果为:第二个被乘数与公共乘数乘积中间结果的相反数;否则,第二个被乘数与公共乘数的乘积最终结果为:第二个被乘数与公共乘数乘积的中间结果。
本发明具有以下有益效果:
(1)本发明提供的基于单数字信号处理单元的双乘法计算装置,可以计算任意有符号数或无符号数的乘法,具有一定的通用性。
(2)充分利用了数字信号处理单元的位宽,提高了计算资源的利用率,降低了计算资源的消耗,节省了LUT开销,并且有效提高了卷积运算的数据吞吐率。
(3)能够将共享乘数的两次短操作数乘法,合并为一次长操作数乘法,同时输出两个乘法结果,提高了运算速度,增加了数据吞吐率。
(4)利用少量修正资源,实现单DSP一次运算实现两次乘法,整体计算资源消耗小于单独例化两个乘法器的消耗,有利于有限计算资源的灵活部署。
附图说明
图1是本发明计算装置的整体架构图。
图2是有符号定点数的示意图。
图3是输入处理单元输出数据格式的示意图。
图4是输入处理单元的内部结构示意图。
图5是输出修正单元的内部结构示意图。
图6是FPGA平台下利用本发明部署卷积运算单元的示意图。
具体实施方式
以下结合附图对本发明方案进行详细说明。
图1是本发明的基于单数字信号处理单元的双乘法计算装置的结构示意图。计算装置包括输入处理单元,用于拼接共享同一乘数的两个被乘数x1和x2,拼接后得到的长乘数从高位到低位依次为:被乘数x1、保留位、被乘数x2绝对值的长乘数x;通用乘法器单元,用于计算长乘数x与公共乘数w的乘法运算;输出修正单元,用于根据公共乘数w的符号位和被乘数x2的数值,对通用乘法器单元的输出结果进行拆分和修正,得到待求乘积y1=x1*w和y2=x2*w。
本实施例有符号定点数的表示形式如图2所示,分为符号位和数值位。对于一个n位的有符号定点数x,如果其二进制表示为an-1an-2…a1a0,则其表示的十进制值为:
Figure BDA0003165784330000041
根据有符号定点数每一位的权值,可以得到以下推导:对一个位宽为(A+B+C)的有符号数,其最高A位可视为一有符号数乘以2(B+C)后的值,最低C位可视为一无符号数。据此,一最高A位为有符号数a=aA-1aA-2…a1a0,中间B位均为零,最低C位为无符号数c=cC-1cC-2…c1c0的有符号数X的值可表示为:
X=a*2(B+C)+c (2)
该有符号数与一位宽为B的有符号数b=bB-1bB-2…b1b0的乘积P为:
P=X*b=a*b*2(B+C)+c*b (3)
由二进制数的乘法规则可知,位宽为M和N的数相乘,其有效位宽不会超过(M+N),因此乘积P的两部分p1=a*b*2(B+C)与p2=c*b的有效位不会发生重叠,且其有效位分别对应乘积P的高(A+B)位和低(B+C)位。根据这一性质,若通过一次乘法计算两个位宽分别A和C的有符号数x1、x2与位宽为B的公共乘数w,可设置一位宽为(A+B+C)的有符号数x作为长乘数,将x1置于x的高A位,将x2的绝对值|x2|置于x的低C位。其中长乘数x的值如下所示,在实施例中通过位拼接操作实现,图3展示了长乘数x的形式:
x=x1*2(B+C)+|x2| (4)
|x2|在实施例中的求解如(5)所示。其中sign(x2)为x2的符号位,即最高位;
Figure BDA0003165784330000046
为x2按位取反的值:
Figure BDA0003165784330000042
注意128和-128的8位二进制表示相同,因此不存在溢出的情况。
由公式(3)得到的x与w的乘积y为:
y=x*w=x1*w*2(B+C)+|x2|*w (6)
易知y为一位宽为(A+2B+C)的有符号数。取y的高(A+B)位作为x1*w的中间结果
Figure BDA0003165784330000043
低(B+C)位作为x2*w的中间结果
Figure BDA0003165784330000044
中间结果的含义是,该结果并非最终的乘法运算结果,需要根据乘数的性质进行修正,结果修正的依据和方法如下:
由公式(6)可知,当w<0且|x2|≠0时,低位的运算结果
Figure BDA0003165784330000045
为一负数,由计算机执行有符号数乘法的原理可知,当w<0且|x2|≠0时,低位的位扩展会对高位结果产生干扰,影响高位结果的准确性,由x2和w的位宽可知:
||x2|*w|≤|(2C-1)*(-2)B|<2(B+c) (7)
由公式(1)可知,虽然截位后的
Figure BDA0003165784330000051
可视为有符号数,但在y中被视为一正数
Figure BDA0003165784330000052
因此由公式(7)得,y的真值满足:
Figure BDA0003165784330000053
公式(8)中第二个不等号在|x2|*w≥0时等号成立,此情况下,高位的中间结果
Figure BDA0003165784330000054
恰好等于x1*w的真值y1;否则由公式(8)易得,
Figure BDA0003165784330000055
由此得到实施例中y1的修正方法:
Figure BDA0003165784330000056
由公式(6)可知,将
Figure BDA0003165784330000057
看作有符号数时,其取值满足以下条件:
Figure BDA0003165784330000058
由公式(10)得到实施例中y2的修正方法,其中sign(x2)是乘数x2的符号位,
Figure BDA0003165784330000059
为为
Figure BDA00031657843300000510
按位取反的值:
Figure BDA00031657843300000511
至此,整个计算过程完成。
实施例
(1)利用本发明计算装置来计算8比特无符号定点数乘法,被乘数x1、x2的取值分别为-117(10001011)和34(00100010),公共乘数w为-50(11001110),则长乘数x位宽为24,保留位为八个0,乘法器定义为24bit*8bit有符号数乘法器,计算将依次经过以下处理单元完成:
输入处理单元:如图4所示,包括取绝对值单元和输入拼接单元,首先,取绝对值单元对被乘数x2取绝对值,本实施例中x2=34,则输出为|x2|=34(0010 0010);然后,将被乘数x1,保留位与|x2|按从高位到低位的顺序由输入拼接单元拼接为长乘数x,结果为100010110000000000100010。
通用乘法器单元:执行长乘数x与公共乘数w的有符号乘法,输出中间结果y。此例中y的结果为00010110110110011111100101011100。
输出修正单元:如图5所示,包括乘积拆分单元和两个乘积修正单元。首先,乘积拆分单元根据被乘数x1、x2和公共乘数w的位宽,得到中间结果y的拆分方式。在本实施例中,y的高16位为x1*w的中间结果
Figure BDA0003165784330000061
(0001 0110 1101 1001),低16位为x2*w的中间结果
Figure BDA0003165784330000062
(1111100101011100)。然后,根据公式(9)判断待求乘积y1=x1*w的取值:本实施例中,由于w的符号位为1,且x2≠0,因此
Figure BDA0003165784330000063
结果为0001 0110 1101 1010,即5850;根据公式(11)判断的待求乘积y2=x2*w的取值:本实施例中,x2符号位为0,因此
Figure BDA0003165784330000064
结果为1111100101011100,即-1700。
在Xilinx的Vivado 2018.2下,基于开发板ZynqUltraScale+ZCU102 EvaluationBoard,综合本发明的硬件设计,本实施例与相同功能乘法器计算资源开销的对比如下表所示:
表1计算开销对比
Figure BDA0003165784330000065
本实施例的LUT消耗远小于完全基于LUT搭建的乘法器,在充分利用DSP位宽的同时,有效缓解了特定算法在硬件部署过程中,LUT资源开销过大的问题。本实施例所用FF(Flip Flop,触发器)的数量也大大减少。同时,本实施例基于单次DSP乘法计算,得到两次乘法的结果,利用相同硬件资源,使复用公共因子的有符号数乘法数据吞吐率翻倍。
(2)本实施例以卷积神经网络的硬件部署为例,说明本发明提供的计算装置如何进行实际部署。图6所示的3*3卷积计算单元中,部署了三个本发明的计算装置(用“*”表示)。其中每个装置负责计算不同行的激励和权重,数字代表激励或权重在该行数据中的顺序。本发明的计算装置每个时钟周期可同时输入行方向上连续的两个激励值,与该行对应的权重进行乘法,每三个周期输出两个卷积结果,实现了卷积乘法的计算加速。
(3)本实施例以最低位权值为2i(i为不为零的整数)的有符号定点数为例,说明本发明提供的计算方法的普适性。假设被乘数x1(A bit)、x2(B bit)和公共乘数w(C bit)最低位的权值依次为2a,2b,2c,不失一般性地,按照本发明提供的计算方法得到的待求乘积y1,y2,其二进制形式不依赖最低位权值的大小。在二进制转换为十进制时,将y1最低位权值视为2a+b,y2最低位权值视为2b+c进行转换,即可得到正确的结果。或者假设小数点左边一位权值为1,如果不存在小数点,则最低位权值为1。在该假设下判断a+b(或b+c)的值,若大于零,则在结果y1(或y2)的右边补|a+b|(或|b+c|)为零,则其结果由具体实施方法一节的公式(1)给出。若小于零,则在y1(或y2)从最低位起第|a+b|(或|b+c|)的左边打小数点,也可以得到各位权值含义明确的二进制有符号数。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。

Claims (8)

1.一种基于单数字信号处理单元的双乘法计算装置,其特征在于,包括:
输入处理单元,用于拼接具有公共乘数w的两个被乘数x1和x2,拼接后得到的长乘数从高位到低位依次为:被乘数x1、保留位、被乘数x2绝对值的长乘数x;
通用乘法器单元,用于计算长乘数x与公共乘数w的乘法运算;
输出修正单元,用于根据公共乘数w的符号位和被乘数x2的数值,对通用乘法器单元的输出结果进行拆分和修正,得到待求乘积y1=x1*w和y2=x2*w的输出值。
2.权利要求1所述的基于单数字信号处理单元的双乘法计算装置,其特征在于,所述通用乘法器单元仅包括一个基于单数字信号处理单元的乘法器。
3.根据权利要求1所述的基于单数字信号处理单元的双乘法计算装置,其特征在于,所述输入处理单元包括取绝对值单元和输入拼接单元。
4.根据权利要求1所述的基于单数字信号处理单元的双乘法计算装置,其特征在于,所述输出修正单元包括乘积拆分单元和乘积修正单元。
5.一种基于单数字信号处理单元的双乘法计算方法,其特征在于,该方法基于单数字信号处理单元的一次乘法运算,计算共享同一乘数的两次定点数乘法的结果,具体步骤包括:
(1)将具有公共乘数的两个被乘数拼接为一个长乘数;
(2)将所述长乘数与公共乘数进行乘法操作,得到长乘数与公共乘数的积;
(3)根据两个被乘数与公共乘数的位宽,将步骤(2)计算得到的长乘数与公共乘数的积,拆分成两个待求乘积的中间结果;根据第二个被乘数的符号位,对第二个被乘数与公共乘数乘积的中间结果进行修正,得到第二个被乘数与公共乘数的乘积;根据第二个被乘数是否为零与公共乘数的符号位,对第一个被乘数与公共乘数乘积的中间结果进行修正,得到第一个被乘数与公共乘数的乘积。
6.权利要求5所述的一种基于单数字信号处理单元的双乘法计算方法,其特征在于,所述步骤(1)中,长乘数从高位到低位依次为第一个被乘数,保留位和第二个被乘数的绝对值;其中保留位为位宽与公共乘数相同的若干零。
7.权利要求5所述的一种基于单数字信号处理单元的双乘法计算方法,其特征在于,所述步骤(3)中,第一个被乘数与公共乘数乘积的中间结果,为长乘数与公共乘数的积的最高若干位,位宽等于第一个被乘数位宽与公共乘数位宽之和;第二个被乘数位宽与公共乘数乘积的中间结果,为长乘数与公共乘数的积的最低若干位,位宽等于第二个被乘数位宽与公共乘数位宽之和。
8.根据权利要求5所述的一种基于单数字信号处理单元的双乘法计算方法,其特征在于,如果公共乘数的符号位为1,且第二个被乘数不为零,则第一个被乘数与公共乘数的乘积最终结果为:第一个被乘数与公共乘数乘积的中间结果加1;否则,第一个被乘数与公共乘数的乘积最终结果为:第一个被乘数与公共乘数乘积的中间结果;如果第二个被乘数小于零,则第二个被乘数与公共乘数的乘积最终结果为:第二个被乘数与公共乘数乘积中间结果的相反数;否则,第二个被乘数与公共乘数的乘积最终结果为:第二个被乘数与公共乘数乘积的中间结果。
CN202110804257.2A 2021-07-16 2021-07-16 一种基于单数字信号处理单元的双乘法计算装置和方法 Active CN113672196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804257.2A CN113672196B (zh) 2021-07-16 2021-07-16 一种基于单数字信号处理单元的双乘法计算装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804257.2A CN113672196B (zh) 2021-07-16 2021-07-16 一种基于单数字信号处理单元的双乘法计算装置和方法

Publications (2)

Publication Number Publication Date
CN113672196A true CN113672196A (zh) 2021-11-19
CN113672196B CN113672196B (zh) 2023-09-15

Family

ID=78539396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804257.2A Active CN113672196B (zh) 2021-07-16 2021-07-16 一种基于单数字信号处理单元的双乘法计算装置和方法

Country Status (1)

Country Link
CN (1) CN113672196B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116048479A (zh) * 2023-04-03 2023-05-02 南京大学 一种针对存算一体芯片的快速编程方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591615A (zh) * 2012-01-16 2012-07-18 中国人民解放军国防科学技术大学 结构化混合位宽乘法运算方法及装置
CN105022609A (zh) * 2015-08-05 2015-11-04 浪潮(北京)电子信息产业有限公司 一种数据混洗方法和数据混洗单元
CN107479855A (zh) * 2017-07-05 2017-12-15 电子科技大学 一种fpga中dsp乘法器的复用算法
CN109739555A (zh) * 2019-01-04 2019-05-10 腾讯科技(深圳)有限公司 包括乘累加模块的芯片、终端及控制方法
CN111814972A (zh) * 2020-07-08 2020-10-23 上海雪湖科技有限公司 一种基于fpga的神经网络卷积运算加速方法
CN112417207A (zh) * 2020-11-24 2021-02-26 未来电视有限公司 一种视频推荐方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591615A (zh) * 2012-01-16 2012-07-18 中国人民解放军国防科学技术大学 结构化混合位宽乘法运算方法及装置
CN105022609A (zh) * 2015-08-05 2015-11-04 浪潮(北京)电子信息产业有限公司 一种数据混洗方法和数据混洗单元
CN107479855A (zh) * 2017-07-05 2017-12-15 电子科技大学 一种fpga中dsp乘法器的复用算法
CN109739555A (zh) * 2019-01-04 2019-05-10 腾讯科技(深圳)有限公司 包括乘累加模块的芯片、终端及控制方法
CN111814972A (zh) * 2020-07-08 2020-10-23 上海雪湖科技有限公司 一种基于fpga的神经网络卷积运算加速方法
CN112417207A (zh) * 2020-11-24 2021-02-26 未来电视有限公司 一种视频推荐方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李国强: "FT-SIMD:一种高性能乘法器的设计", 《计算机工程与科学》, pages 53 - 57 *
李磊;赵建明;: "高速可重组16×16乘法器的设计", 微电子学与计算机, no. 06, pages 126 - 128 *
樊迪;王健;来金梅;: "FPGA中适用于低位宽乘累加的DSP块", 复旦学报(自然科学版), no. 05, pages 69 - 78 *
谭思炜, 潘红兵: "基于RS码的可重构有限域乘法器的设计与实现", 《计算机应用与软件》, vol. 28, no. 08, pages 281 - 283 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116048479A (zh) * 2023-04-03 2023-05-02 南京大学 一种针对存算一体芯片的快速编程方法

Also Published As

Publication number Publication date
CN113672196B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
US10776078B1 (en) Multimodal multiplier systems and methods
WO2022170809A1 (zh) 一种适用于多精度计算的可重构浮点乘加运算单元及方法
US11816448B2 (en) Compressing like-magnitude partial products in multiply accumulation
CN110515584A (zh) 浮点计算方法及系统
JPH0368416B2 (zh)
US11604970B2 (en) Micro-processor circuit and method of performing neural network operation
US3878985A (en) Serial-parallel multiplier using booth{3 s algorithm with combined carry-borrow feature
CN113672196B (zh) 一种基于单数字信号处理单元的双乘法计算装置和方法
CN113608718A (zh) 一种实现素数域大整数模乘计算加速的方法
Zarandi et al. An Efficient Component for Designing Signed Reverse Converters for a Class of RNS Moduli Sets of Composite Form $\{2^{k}, 2^{P}-1\} $
JP2006172035A (ja) 除算・開平演算器
US20220075598A1 (en) Systems and Methods for Numerical Precision in Digital Multiplier Circuitry
CN103942027B (zh) 一种可重构的快速并行乘法器
Dalmia et al. Novel high speed vedic multiplier proposal incorporating adder based on quaternary signed digit number system
US11531896B2 (en) Neural network circuit providing for operations with bit shifting and rounded values of weight information
WO2022150058A1 (en) Numerical precision in digital multiplier circuitry
CN110506255B (zh) 节能型可变功率加法器及其使用方法
Hossain et al. A fast and compact binary to BCD converter circuit
JP2645422B2 (ja) 浮動小数点演算処理装置
CN116991359B (zh) Booth乘法器、混合Booth乘法器及运算方法
Langhammer et al. Dense FPGA compute using signed byte tuples
CN117908835B (zh) 一种基于浮点数计算能力加速sm2国密算法的方法
Lloris Ruiz et al. Multiplication
Esmaeildoust et al. High Speed Reverse Converter for the Five Moduli Set {2n, 2n-1, 2n+ 1, 2n-3, 2n-1-1}
Pekmestzi et al. Design of Efficient 1's Complement Modified Booth Multiplier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant