CN110704022A

CN110704022A - 向量与矩阵的fpga并行快速乘法器模块及其计算方法

Info

Publication number: CN110704022A
Application number: CN201910590888.1A
Authority: CN
Inventors: 杨旭辉; 徐武德; 马芳兰; 祁昌禹; 张红霞; 马宏伟; 杨国辉; 巩学芳; 郑礴; 韩根亮
Original assignee: INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Current assignee: INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2020-01-17

Abstract

提供一种向量与矩阵的FPGA并行快速乘法器，消除了现有方法计算时需要重复寻址的问题，有效减少了访存次数和访存时间，提高了计算速度，实现了向量与矩阵的并行乘法运算，并提供该向量与矩阵乘法器的实现方法。本发明的技术方案：结构如下：该结构由n+1个FIFO队列结构存储器、n个乘法器、n个累加器、n个缓存器和n个控制器组成。每个存储器均有1个输入端口，1个输出端口；每个乘法器均有2个输入端口，1个输出端口；每个累加器均有2个输入端口，1个输出端口；每个缓存器均有1个输入端口，1个输出端口；每个控制器均有1个输入端口，2个输出端口。

Description

向量与矩阵的FPGA并行快速乘法器模块及其计算方法

技术领域

本发明属于信息通信领域，具体涉及一种向量与矩阵的FPGA并行快速乘法器及其实现方法。

研究背景

向量与矩阵的乘法运算是现代信号处理中最基本的运算，并在诸如图像处理领域的特征提取、稀疏信号处理、机器学习领域数据压缩以及自动控制中的过程控制中都得到广泛应用。向量与矩阵的乘法运算是一种耗时长，计算复杂度较高，消耗内存大的运算，其计算性能直接影响系统的整体性能。

近年来，随着FPGA技术的飞速发展，FPGA将采集、控制、处理、传输等功能集于一块芯片内，缩短了开发周期，并行计算使得可编程灵活性大大增加，现有的FPGA随着工艺以及精度的提高，更广泛的应用于计算密集型的应用场合。基于FPGA的设计原理和架构，FPGA通过设计多个并行计算模块，可以快速有效地实现并行处理，提高计算速度。但是，目前基于FPGA 的向量与矩阵乘法运算设计方面，多采用串行的设计方法，该类方法存在延迟时间长，可扩展性差以及带宽随维度成倍增加等限制。因此，现有的处理方式控制复杂而且不能对实时数据进行流水式操作，计算复杂度较高，消耗内存大，且不易实现。

发明内容

本发明的目的在于针对现有方法的不足，提供一种向量与矩阵的FPGA并行快速乘法器，消除了现有方法计算时需要重复寻址的问题，有效减少了访存次数和访存时间，提高了计算速度，实现了向量与矩阵的并行乘法运算，并提供该向量与矩阵乘法器的实现方法。

本发明的技术方案：结构如下：

该结构由n+1个FIFO(先进先出)队列结构存储器(存储器(0)、存储器(1)，存储器(2)…存储器(n))、n个乘法器(M₁，M₂，…M_n)、n个累加器(A₁，A₂，…An)、n个缓存器 (Buf1、Buf2、…Bufn)和n个控制器(控制器1、控制器2、…控制器n)组成。

每个存储器均有1个输入端口，1个输出端口；每个乘法器均有2个输入端口，1个输出端口；每个累加器均有2个输入端口，1个输出端口；每个缓存器均有1个输入端口，1 个输出端口；每个控制器均有1个输入端口，2个输出端口。

各个部件的连接关系如下：存储器(0)的输出端口与乘法器M₁，M₂，…M_n的一个输入端口分别相连，存储器(1)的输出端口与乘法器M₁的另一个输入端口连接，乘法器M₁的输出端口与累加器A₁的一个输入端口相连，累加器A₁的另一个输入端口与控制器1的输出端口 1连接，累加器A₁的输出端口与缓存器Buf1的输入端口连接，缓存器Buf1的输出端口与控制器1的输入端口连接，控制器1的输出端口2为最终结果输出端口out1；

存储器(0)的输出端口与乘法器M₁，M₂，…M_n的一个输入端口分别相连，存储器(2)的输出端口与乘法器M₂的另一个输入端口连接，乘法器M₂的输出端口与累加器A₂的一个输入端口相连，累加器A₂的另一个输入端口与控制器2的输出端口1连接，累加器A₂的输出端口与缓存器Buf2的输入端口连接，缓存器Buf2的输出端口与控制器2的输入端口连接，控制器2的输出端口2为最终结果输出端口out2；

存储器(0)的输出端口与乘法器M₁，M₂，…M_n的一个输入端口分别相连，存储器(n)的输出端口与乘法器M_n的另一个输入端口连接，乘法器M_n的输出端口与累加器A_n的一个输入端口相连，累加器A_n的另一个输入端口与控制器n的输出端口连接，累加器A_n的输出端口与缓存器Bufn的输入端口连接，缓存器Bufn的输出端口与控制器n的输入端口连接，控制器n的输出端口2为最终结果输出端口outn；运算步骤为：

S1将m维向量X存入存储器(0),即存储器(0)中存入的值为x₁，x₂，…x_m；为了存储方便，将矩阵W转置为n*m维矩阵，然后将n行向量分别存入存储器(1)，存储器(2)…存储器(n)；即存储器(1)中存入的值为w₁₁，w₂₁，…w_m1，存储器(2)中存入的值为w₁₂,w₂₂,…w_m2，以此类推，存储器(n)中存入的值为w_1n，w_2n,…w_mn；

S2取出存储器(0)中的第1个元素x₁及存储器(1)，存储器(2)，…存储器(n)中的第1个元素w₁₁,w₁₂,…,w_1n；将x₁分别送入M₁，M₂，…M_n乘法器，w₁₁，w₁₂，…w₁n依次送入M₁，M₂，… M_n乘法器，实现x₁与w₁₁，w₁₂，…w₁n的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An；

S3取出存储器(0)中的第2个元素x₂及存储器(1)，存储器(2)…存储器(n)中的第2个元素 w₂₁，w₂₂，…w_2n；将x₂分别送入M₁，M₂，…M_n乘法器，w₂₁，w₂₂，…w₂n依次送入M₁，M₂，…M_n乘法器，实现x₂与w₂₁，w₂₂，…w₂n的n路并行乘法计算，然后将乘积结果送入相应的累加器 A₁，A₂，…An；S4取出存储器(0)中的第i(m＞i≥3)个元素x_i及存储器(1),存储器(2)…存储器(n)中的第i个元素w_i1,w_i2,…,w_in；将x_i分别送入M₁，M₂，…,M_n乘法器，w_i1，w_i2，…w_in依次送入M₁，M₂，…M_n乘法器，实现x_i与w_i1，w_i2，…w_in的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An；

S5若i＜m，则i+1，重复步骤S4；否则，进入步骤S6；

S6累加器A₁，A₂，…An将输出结果分别存储在缓存器Buf1，Buf2，…，Bufn中。控制器1，控制器2，…，控制器n判断向量X与矩阵W的运算是否结束，如果没有结束，将Buf1，Buf2，…，Bufn中的结果送入累加器A₁，A₂，…An；如果结束，则将Buf1，Buf2，…，Bufn 中的结果输出，即为向量X与矩阵W相乘的结果[out1,out2,…outn].

附图说明

图1为结构示意图

具体实施方式

如图1所示，为了描述更清楚，在附图中加入了控制器模块，从而方便控制乘法是否计算完成，如果没有完成则将buf结果送入累加器A1，如果计算完成，则输出结果Out。

本发明的技术方案：

向量与矩阵的FPGA并行快速乘法器原理如下：

一个向量X＝(x₁,x₂,x₃,x_m)，

如果X*W，若用传统的计算方法，则需要做如下运算：

1)取x₁，取w₁₁,计算x₁*w₁₁；

2)取x₂，取w₂₁,计算x₂*w₂₁；

3)取x₃，取w₃₁,计算x₃*w₃₁；

4)取x_m，取w_m1,计算x_m*w_m1；

5)计算∑xi*w_i1，得到X*W₁,即完成了向量X与矩阵W第一列的乘积运算。

完成向量与矩阵一列的乘积运算需要访存2m次，以此类推，m维向量X与m*n维矩阵W做乘积运算，则需要2m*n＝2mn次访存且并行效果非常差。

如果将W进行转置，

则可以进行如下运算：

取X中第一个向量x₁作为公共向量，取W^T中的第一列则可以用n路并行乘法来计算，得到

取X中第二个向量x₂作为公共向量，取W^T中的第二列则可以用n路并行乘法来计算，得到

取X中第m个向量x_m作为公共向量，取W^T中的第m列则可以用n路并行乘法来计算，得到

将上述结果累加，则得到向量X与矩阵W的乘积为

此种方法共访存mn+m次，在n>1时，2mn>mn+m。即第二种方法访存次数更少，且易于并行运算，在设计并行模块时可将其结构如图1所示：

该乘法器在FPGA中的执行过程：

若m维向量X与m*n维矩阵W相乘，相乘过程如下：

(1)将m维向量X存入存储器(0),即存储器(0)中存入的值为x₁，x₂，…x_m；为了存储方便，将矩阵W转置为n*m维矩阵，然后将n行向量分别存入存储器(1)，存储器(2)…存储器(n)；即存储器(1)中存入的值为w₁₁，w₂₁，…w_m1，存储器(2)中存入的值为w₁₂,w₂₂,…w_m2，以此类推，存储器(n)中存入的值为w_1n，w_2n,…w_mn；

(2)取出存储器(0)中的第1个元素x₁及存储器(1)，存储器(2)，…存储器(n)中的第1个元素w₁₁,w₁₂,…,w_1n；将x₁分别送入M₁，M₂，…M_n乘法器，w₁₁，w₁₂，…w₁n依次送入M₁，M₂，…M_n乘法器，实现x₁与w₁₁，w₁₂，…w₁n的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An。

(3)取出存储器(0)中的第2个元素x₂及存储器(1)，存储器(2)…存储器(n)中的第2个元素 w₂₁，w₂₂，…w_2n；将x₂分别送入M₁，M₂，…M_n乘法器，w₂₁，w₂₂，…w₂n依次送入M₁，M₂，…M_n乘法器，实现x₂与w₂₁，w₂₂，…w₂n的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An。

(4)以此类推，取出存储器(0)中的第m个元素x_m及存储器(1),存储器(2)…存储器(n)中的第m个元素w_m1,w_m2,…,w_mn；将x_m分别送入M₁，M₂，…,M_n乘法器，w_m1，w_m2，…w_mn依次送入M₁，M₂，…M_n乘法器，实现x_m与w_m1，w_m2，…w_mn的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An。

(5)累加器A₁，A₂，…An将输出结果分别存储在缓存器Buf1，Buf2，…，Bufn中。控制器1，控制器2，…，控制器n判断向量X与矩阵W的运算是否结束，如果没有结束，将Buf1，Buf2，…，Bufn中的结果送入累加器A₁，A₂，…An；如果结束，则将Buf1，Buf2，…，Bufn 中的结果输出，即为向量X与矩阵W相乘的结果[out1,out2,…outn].

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的内容和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种向量与矩阵的FPGA并行快速乘法器，其特征在于，结构如下：

该结构由n+1个FIFO即先进先出队列结构存储器、n个乘法器、n个累加器、n个缓存器和n个控制器组成；

其中，每个存储器均有1个输入端口，1个输出端口；每个乘法器均有2个输入端口，1个输出端口；每个累加器均有2个输入端口，1个输出端口；每个缓存器均有1个输入端口，1个输出端口；每个控制器均有1个输入端口，2个输出端口；

各个部件的连接关系如下：

存储器(0)的输出端口与乘法器M₁，M₂，…M_n的一个输入端口分别相连，存储器(1)的输出端口与乘法器M₁的另一个输入端口连接，乘法器M₁的输出端口与累加器A₁的一个输入端口相连，累加器A₁的另一个输入端口与控制器1的输出端口1连接，累加器A₁的输出端口与缓存器Buf1的输入端口连接，缓存器Buf1的输出端口与控制器1的输入端口连接，控制器1的输出端口2为最终结果输出端口out1；

依次连接存储器(0)的输出端口与乘法器M₁，M₂，…M_n的一个输入端口分别相连，存储器(n)的输出端口与乘法器M_n的另一个输入端口连接，乘法器M_n的输出端口与累加器A_n的一个输入端口相连，累加器A_n的另一个输入端口与控制器n的输出端口连接，累加器A_n的输出端口与缓存器Bufn的输入端口连接，缓存器Bufn的输出端口与控制器n的输入端口连接，控制器n的输出端口2为最终结果输出端口outn。

2.根据权利要求1所述的一种向量与矩阵的FPGA并行快速乘法器，其特征在于，运算步骤为：

S1将m维向量X存入存储器(0),即存储器中存入的值为x₁，x₂，…x_m；为了存储方便，将矩阵W转置为n*m维矩阵，然后将n行向量分别存入存储器(1)，存储器(2)…存储器(n)；即存储器(1)中存入的值为w₁₁，w₂₁，…w_m1，存储器(2)中存入的值为w₁₂,w₂₂,…w_m2，以此类推，存储器(n)中存入的值为w_1n，w_2n,…w_mn；

S2取出存储器(0)中的第1个元素x₁及存储器(1)，存储器(2)，…存储器(n)中的第1个元素w₁₁,w₁₂,…,w_1n；将x₁分别送入M₁，M₂，…M_n乘法器，w₁₁，w₁₂，…w₁n依次送入M₁，M₂，…M_n乘法器，实现x₁与w₁₁，w₁₂，…w₁n的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An；

S3取出存储器(0)中的第2个元素x₂及存储器(1)，存储器(2)…存储器(n)中的第2个元素w₂₁，w₂₂，…w_2n；将x₂分别送入M₁，M₂，…M_n乘法器，w₂₁，w₂₂，…w₂n依次送入M₁，M₂，…M_n乘法器，实现x₂与w₂₁，w₂₂，…w₂n的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An；

S4取出存储器(0)中的第i(m＞i≥3)个元素x_m及存储器(1),存储器(2)…存储器(n)中的第i个元素w_i1,w_i2,…,w_in；将x_i分别送入M₁，M₂，…,M_n乘法器，w_i1，w_i2，…w_in依次送入M₁，M₂，…M_n乘法器，实现x_i与w_i1，w_i2，…w_in的n路并行乘法计算，然后将乘积结果送入相应的累加器A₁，A₂，…An；

S5若i＜m，则i+1，重复步骤S4；否则，进入步骤S6；S6累加器A₁，A₂，…An将输出结果分别存储在缓存器Buf1，Buf2，…，Bufn中；控制器1，控制器2，…，控制器n判断向量X与矩阵W的运算是否结束，如果没有结束，将Buf1，Buf2，…，Bufn中的结果送入累加器A₁，A₂，…An；如果结束，则将Buf1，Buf2，…，Bufn中的结果输出，即为向量X与矩阵W相乘的结果[out1,out2,…outn]。