CN117806590A

CN117806590A - 一种矩阵乘硬件架构

Info

Publication number: CN117806590A
Application number: CN202311738376.8A
Authority: CN
Inventors: 曾书霖; 颜深根; 李锦涛; 代亚东; 温凯瑞
Original assignee: Shanghai Wuwen Core Dome Intelligent Technology Co ltd
Current assignee: Shanghai Wuwen Core Dome Intelligent Technology Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-04-02
Anticipated expiration: 2043-12-18
Also published as: CN117806590B

Abstract

本发明提供了一种矩阵乘硬件架构，包括：规约网络，包括由多个规约网络节点形成的多级树形拓扑，所述规约网络节点包括数据选择器和两条计算通路；数字信号处理单元DSP48链，由多个数字信号处理单元DSP48级联，相邻所述数字信号处理单元DSP48的输出端分别接入首级树形拓扑中的同一规约网络节点的两条计算通路，两条计算通路的输出经数据选择器后连接至上一级树形拓扑中的规约网络节点；本申请将FSB的加法树改为适配DSP48结构的加法链，从而复用DSP48的后加法器，提高了硬件利用率；同时，本申请的硬件架构能够将高位的符号位扩展改为补0，从而大大节省资源和优化时序。

Description

一种矩阵乘硬件架构

技术领域

本发明属于数字信号处理技术领域，具体涉及一种矩阵乘硬件架构。

背景技术

在以Transformer算法为基础的大语言模型中，矩阵-矩阵乘法(General MatrixMultiplication，GEMM)广泛应用于解决复杂的物理系统、计算电路中的电流分布以及分析工程问题、多维数据处理、社交网络分析、电影推荐系统和交通规划和管理等技术领域，其是最主要且耗时最长的运算操作，为了减少计算负载、提高计算效率，需要采用稀疏化等优化计算方法并设计高效的硬件架构来加速矩阵乘法运算，稀疏化已成为广泛使用的GEMM加速方法，并且已经有相关的专用硬件架构实现。

针对具有以块为单位的灵活稀疏度的矩阵，现有的灵活稀疏块硬件计算架构(Flexible Sparse Block，FSB)是由多个乘法器和动态可扩展规约网络组成的，其中动态可扩展规约网络由加法器树和配置逻辑组成，如图1所示，图1(a)示出了灵活稀疏块硬件计算架构的从存储中读取阵列过程，其包括定义存储器地址、加载阵列数据、读取阵列数据和处理阵列数据等步骤，在定义存储器地址的步骤中采用寄存器用于存储二进制代码，图1(b)示出了灵活稀疏块硬件计算架构的解码输入过程，所述解码输入是指将输入的信号或数据进行解码，以提取其中的有用信息或数据，其包括接收输入数、解析数据格式、解码数据和通过选择器过滤或变换解码数据，图1(c)示出了灵活稀疏块硬件计算架构的配置规约网络过程，其基于预设的网络拓扑实现数据的传输和优化，图1(d)示出了灵活稀疏块硬件计算架构的传输数据过程，其同样基于预设的网络拓扑实现分级式多路分时传送数据，其需要考虑硬件资源的使用和能耗等因素，图1(e)示出了灵活稀疏块硬件计算架构的计算和规约过程，其采用向量-矩阵乘法以及基于树形结构的规约方式，图1(f)示出了灵活稀疏块硬件计算架构的累加求和过程。

根据当前块的稀疏度，每层规约节点被配置成执行加法或者前向传输功能，即选择器会在加法器结果和位拼接结果中择一输出。

而相关技术中的硬件计算架构如FSB存在以下缺点：

针对现场可编程门阵列(Field-Programmable GateArray，FPGA)的硬件优化不足，表现在：加法树结构计算效率低；FPGA资源消耗多。硬件并行度为p时，计算单元需要p个乘法器、(p/2^1+p/2^2+p/2^3+...+1)个加法器，为了加速大语言模型的推理过程，需要重复设置多个计算单元以达到较高的计算效率，这会耗费大量FPGA中有限的查找表(LookUpTable，LUT)资源。

发明内容

针对相关技术中存在的问题，本发明提供一种矩阵乘硬件架构，能够大大节省资源和优化时序。

本发明实施例提供了一种矩阵乘硬件架构，包括：

规约网络，包括由多个规约网络节点形成的多级树形拓扑，所述规约网络节点包括数据选择器和两条计算通路；

数字信号处理单元DSP48链，由多个数字信号处理单元DSP48级联，相邻所述数字信号处理单元DSP48的输出端分别接入首级树形拓扑中的同一规约网络节点的两条计算通路，两条计算通路的输出经数据选择器后连接至上一级树形拓扑中的规约网络节点。

进一步的，所述数字信号处理单元DSP48包括用于接收稀疏矩阵数据和密集矩阵数据的四个输入端口，以及输出端口，所述输出端口连接相邻级联的数字信号处理单元DSP48。

进一步的，所述四个输入端口分别为：

用于接收稀疏矩阵数据和密集矩阵数据的输入端口B、输入端口A和输入端口D；

用于连接数字信号处理单元DSP48链中上一级数字信号处理单元DSP48输出端的输入端口C；以及

用于连接数字信号处理单元DSP48链中下一级数字信号处理单元DSP48输入端的输出端口P。

进一步的，所述数字信号处理单元DSP48内部设置有前加法器和后加法器，以及设置于所述前加法器输入侧和输出侧的多组逻辑电路以及所述后加法器输入侧和输出侧的多组逻辑电路。

进一步的，所述多组逻辑电路包括：

用于连接数字信号处理单元DSP48的两个输出端口并接入前加法器的逻辑电路；

用于连接数字信号处理单元DSP48的另一个输出端口并接入后加法器，且后加法器同时接入有前加法器的输出端的逻辑电路；以及

用于该数字信号处理单元DSP48输出端的逻辑电路。

进一步的，所述数字信号处理单元DSP48被配置为能够同时计算多个8位乘法。

进一步的，所述数字信号处理单元DSP48链中的数字信号处理单元DSP48并行度为4的整数倍，且每一种并行度均支持多种稀疏度格式的矩阵乘法计算。

进一步的，所述两条计算通路分别用于该规约网络节点对输入数据的加法运算和拼接功能。

进一步的，所述数据选择器用于根据预设的选择信号选择两条计算通路中的一条进行输出。

进一步的，所述数据选择器的预设的选择信号基于输入矩阵稀疏度、数字信号处理单元DSP48的并行度以及该规约网络节点所在多级树形拓扑中的深度确定。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

与现有技术相比，本发明具有以下有益的技术效果：

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了相关技术中的灵活稀疏块硬件计算架构示意图；

图2示出了本发明实施例中一种矩阵乘硬件架构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

图2示出了本发明实施例中一种矩阵乘硬件架构，如图2所示，根据本发明的矩阵乘硬件架构包括：

需要说明的是，在本实施例中所述的多级树形拓扑结构是一种类似于总线拓扑的局域网拓扑，由树形结构组成，具有树形结构的特点，在树形拓扑中，树形网络可以包含分支，每个分支又可包含多个规约网络节点，树形拓扑是总线拓扑的扩充形式，传输介质是不封闭的分支电路。

所述的树形拓扑具有根节点和各分支节点，适用于分层结构，非常适合于分主次、分等级的层次型管理系统，树形拓扑的特点与总线形拓扑相同，一个站点发送数据，其他站点都能接收，此外，树形拓扑具有较强的可折叠性，可以有效地保护布线投资。

在本实施例中多级树形拓扑结构以及数字信号处理单元DSP48级联中均存在多个多路复用器(MUX)，如图2中所示，其用于上下级数字信号处理单元DSP48和规约网络节点之间的数据信号处理和传递；具体来说，多路复用器(MUX)是一种多路复用器，用于将多路信号的输入多路合并到一个输出线路来，多路复用器(MUX)有一组特定的输入端，每个输入端可以有一个或多个输入信号，也可以没有信号；一个选择端，且必须预先选择输入信号，以及一组输出端，多路复用器(MUX)只有一个输出端口，所有的信号都必须合并到这一个输出端口，而多路复用器(MUX)只会输出选择好的输入信号，其余都会被忽略；多路复用器(MUX)的主要工作原理是：当输入端有信号输入时，将依据输入的选择信号，把对应的输入信号合并到输出端，其它的输入端的信号都会被忽略，因此多路复用器(MUX)可以有效的合并多路信号，以节省输出线路的资源，降低系统的成本。

在本实施例中，所述数字信号处理单元DSP48包括用于接收稀疏矩阵数据和密集矩阵数据的四个输入端口，以及输出端口，所述输出端口连接相邻级联的数字信号处理单元DSP48；具体来说，所述四个输入端口分别为：

进一步具体来说，在本实施例中采用DSP48，其输入端口B宽18位，输入端口A宽30位，输入端口D为预加器D数据端口宽25位。

在本实施例中，所述数字信号处理单元DSP48内部设置有前加法器(Pre-adder)和后加法器(Post-adder)，以及设置于所述前加法器(Pre-adder)输入侧和输出侧的多组逻辑电路以及所述后加法器(Post-adder)输入侧和输出侧的多组逻辑电路；具体来说，所述多组逻辑电路包括：

用于连接数字信号处理单元DSP48的两个输出端口并接入前加法器(Pre-adder)的逻辑电路；

用于连接数字信号处理单元DSP48的另一个输出端口并接入后加法器(Post-adder)，且后加法器(Post-adder)同时接入有前加法器(Pre-adder)的输出端的逻辑电路；以及

用于该数字信号处理单元DSP48输出端的逻辑电路。

具体来说，逻辑电路通常包括输入接口、运算单元、控制逻辑和输出接口等部分，所述的输入接口负责接收外部输入的数据信号，并将其转换为适合内部运算的格式；运算单元是数字信号处理单元DSP48的核心部分，包括乘法器、加法器、移位器等，用于执行各种数字信号处理算法；控制逻辑负责控制运算单元的工作流程，确保正确的运算顺序和结果输出；输出接口负责将处理后的数据信号输出到外部设备或存储器；此外，数字信号处理单元DSP48的逻辑电路还需要考虑与外部设备的接口和通信协议，以确保与外部设备的正确通信和数据传输。

在本实施例中，所述数字信号处理单元DSP48被配置为能够同时计算多个8位乘法；需要说明的是，数字信号处理单元DSP48内部通常会集成多个乘法器，这些乘法器可以同时进行多个8位乘法操作，在执行乘法运算时，数字信号处理单元DSP48会将输入数据分别与乘法器中的系数相乘，并将结果累加起来。由于乘法器是并行工作的，因此可以同时处理多个乘法操作，从而实现同时计算多个8位乘法。

在本实施例中，所述数字信号处理单元DSP48链中的数字信号处理单元DSP48并行度为4的整数倍，且每一种并行度均支持多种稀疏度格式的矩阵乘法计算；具体来说，所述的数字信号处理单元DSP48链中的数字信号处理单元DSP48可以由4、8或16个并行的DSP组成，即数字信号处理单元DSP48的并行度为4、8或16，而每种DSP并行度的计算单元都可以支持多种稀疏度格式的矩阵乘法计算，例如DSP并行度为16的计算单元一共可以支持1：16、2：16、4：16、8：16的稀疏矩阵计算，同时也可以完成密集矩阵的乘法。

在本实施例中，所述两条计算通路分别用于该规约网络节点对输入数据的加法运算和拼接功能；具体来说，所述计算通路的加法运算具有以下作用：

累加功能：在数字信号处理中，累加是一种常见的操作，用于计算信号的总和或平均值。通过加法运算，数字信号处理单元DSP48可以对输入数据进行累加操作，从而得到所需的结果；

滤波功能：加法运算在数字滤波器中起着关键作用。通过将输入数据与滤波器的系数进行加法运算，数字信号处理单元DSP48可以实现对信号的滤波处理，去除噪声或提取特定频率成分。

所述计算通路的拼接功能具有以下作用：

数据合并：拼接功能可以将多个输入数据合并成一个更大的数据块。这在处理分段信号或需要将多个信号合并为一个信号时非常有用。通过拼接操作，数字信号处理单元DSP48可以处理更长的数据序列，从而提高处理效率；

分辨率提升：通过拼接多个输入数据，可以增加数据的分辨率。这在图像处理、音频处理等应用中尤为重要。通过将多个8位数据拼接起来，可以得到更高位数的数据，从而提高处理的精度和质量。

具体来说，在本实施例中数据宽度在经过规约网络节点后会进行扩展；在数字信号处理单元DSP48进行矩阵乘法计算之前，会由选择信号根据矩阵的稀疏度对数字信号处理单元DSP48内部的数据流进行配置，因此本申请能够灵活支持多种稀疏度计算。

在本实施例中，所述数据选择器用于根据预设的选择信号选择两条计算通路中的一条进行输出；

所述数据选择器在数字信号处理单元DSP48中用于根据需要选择性地接收和处理多路数据，实现数据的多路分时传送和逻辑控制，从而提高了数字信号处理单元DSP48的处理效率和功能灵活性；具体来说其用于：

数据选择功能：数据选择器可以根据给定的输入地址代码，从一组输入信号中选择指定的一个送至输出端，这使得数字信号处理单元DSP48能够根据需要选择性地接收和处理多路数据；

数据分时传输：在多路数据传输过程中，数据选择器可以根据需要将其中任意一路选出来，这使得数字信号处理单元DSP48能够实现数据的多路分时传送，提高了数据处理效率；

逻辑控制：数据选择器可以作为逻辑控制的一部分，通过选择不同的输入信号，实现特定的逻辑功能，这在数字信号处理中非常有用，可以帮助数字信号处理单元DSP48实现各种复杂的逻辑运算和控制。

在本实施例中，所述数据选择器的预设的选择信号基于输入矩阵稀疏度、数字信号处理单元DSP48的并行度以及该规约网络节点所在多级树形拓扑中的深度确定；需要说明的是，所述多级树形拓扑中的深度指的是规约网络节点位于多级树形拓扑中的级数。

如图2所示，以由四个数字信号处理单元DSP48组成的计算单元为例，所述四个数字信号处理单元DSP48包括：数字信号处理单元DSP480、数字信号处理单元DSP481、数字信号处理单元DSP482和数字信号处理单元DSP483，其对于一组2:4稀疏度的4*4矩阵输入数据的计算行为如下：

来自稀疏矩阵的A、B、C、D四个8位数据分别被送至数字信号处理单元DSP480、数字信号处理单元DSP481、数字信号处理单元DSP482和数字信号处理单元DSP483的输入端口B，来自密集矩阵的a、b、c、d四个8位数据被分别送至数字信号处理单元DSP480、数字信号处理单元DSP481、数字信号处理单元DSP482和数字信号处理单元DSP483的输入端口A，同样来自密集矩阵的a’、b’、c’、d’四个8位数据被分别送至数字信号处理单元DSP480、数字信号处理单元DSP481、数字信号处理单元DSP482和数字信号处理单元DSP483的输入端口D；

由于一个数字信号处理单元DSP4848能够计算：

(A+D)*B+C＝(A*B+C1)+(D*B+C2)，即两个乘加运算，其中输入端口A和输入端口D的数据来自于不同的大模型输入序列长度(seq_len)维度。

来自上一级数字信号处理单元DSP48的输出端口P的输出结果被传至下一级数字信号处理单元DSP48的输入端口C；

数字信号处理单元DSP48的输出端口P输出结果由两部分组成，包括输出结果和0拼接组成，分别是(A*B+C1)和(D*B+C2)。每两个数字信号处理单元DSP48的这两路输出信号会被送入到第一级拼接器当中，拼接器对输入信号进行补零至32位结果，第一级拼接器的输出结果送入到第二级拼接器，拼接为64位输出结果。

本实施例中的可配置稀疏度的数字信号处理单元DSP48计算架构包括运行时可重构DSP级联链和可配置规约网络两部分；能够将FSB的加法树改为适配DSP48结构的加法链，从而复用DSP48的后加法器，提高硬件利用率；同时能够将高位的符号位扩展改为补0，从而大大节省资源和优化时序。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种矩阵乘硬件架构，其特征在于，包括：

数字信号处理单元DSP48链，由多个数字信号处理单元DSP48级联，相邻两个所述数字信号处理单元DSP48的输出端分别接入首级树形拓扑中的同一规约网络节点的两条计算通路，两条计算通路的输出经数据选择器后连接至上一级树形拓扑中的规约网络节点。

2.根据权利要求1所述一种矩阵乘硬件架构，其特征在于，所述数字信号处理单元DSP48包括用于接收稀疏矩阵数据和密集矩阵数据的四个输入端口，以及输出端口，所述输出端口连接相邻级联的数字信号处理单元DSP48。

3.根据权利要求2所述一种矩阵乘硬件架构，其特征在于，所述四个输入端口分别为：

4.根据权利要求1-3中任一项所述一种矩阵乘硬件架构，其特征在于，所述数字信号处理单元DSP48内部设置有前加法器和后加法器，以及设置于所述前加法器输入侧和输出侧的多组逻辑电路以及所述后加法器输入侧和输出侧的多组逻辑电路。

5.根据权利要求4所述一种矩阵乘硬件架构，其特征在于，所述多组逻辑电路包括：

用于该数字信号处理单元DSP48输出端的逻辑电路。

6.根据权利要求1-3和5中任一项所述一种矩阵乘硬件架构，其特征在于，所述数字信号处理单元DSP48被配置为能够同时计算多个8位乘法。

7.根据权利要求1-3和5中任一项所述一种矩阵乘硬件架构，其特征在于，所述数字信号处理单元DSP48链中的数字信号处理单元DSP48并行度为4的整数倍，且每一种并行度均支持多种稀疏度格式的矩阵乘法计算。

8.根据权利要求1-3和5中任一项所述一种矩阵乘硬件架构，其特征在于，所述两条计算通路分别用于该规约网络节点对输入数据的加法运算和拼接功能。

9.根据权利要求1-3和5中任一项所述一种矩阵乘硬件架构，其特征在于，所述数据选择器用于根据预设的选择信号选择两条计算通路中的一条进行输出。

10.根据权利要求1-3和5中任一项所述一种矩阵乘硬件架构，其特征在于，所述数据选择器的预设的选择信号基于输入矩阵稀疏度、数字信号处理单元DSP48的并行度以及该规约网络节点所在多级树形拓扑中的深度确定。