CN111596887A

CN111596887A - 一种基于可重构计算结构的内积计算方法

Info

Publication number: CN111596887A
Application number: CN202010442271.8A
Authority: CN
Inventors: 李亮; 王晶; 李振; 冯新用; 刘广才; 程文播; 韩文念; 凌星; 贾明正
Original assignee: Tianjin Guoke Medical Technology Development Co Ltd
Current assignee: Weigao Guoke Mass Spectrometry Medical Technology Tianjin Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-08-28
Anticipated expiration: 2040-05-22
Also published as: CN111596887B

Abstract

本发明提供了一种基于可重构计算结构的内积计算结构，采用三种基本结构进行多模式组合形成内积计算结构，其中第一基本结构包括两个乘法器和一个加法器，第二基本结构包括三个加法器，第三基本结构包括一个加法器；所述内积计算结构包括两极，其中L1级为基本单元，其中基本单元为上述采用三种基本结构进行多模式组合形成内积计算结构，L2级为加法器，其中，L1级流水线级数为

L2级流水线级数为

其中m为乘法器个数，N为元素个数。本发明的内积计算结构由3种基本结构构成，这样组合的计算结构简单，容易实现，而且在搭建内积计算结构时更加灵活实用。

Description

一种基于可重构计算结构的内积计算方法

技术领域

本发明属于可重构计算领域，尤其是涉及一种基于可重构计算结构的内积计算方法。

背景技术

可重构架构是兼顾了软件计算的灵活性和硬件计算的高效率的新型计算架构，近年来，可重构计算技术已经深入到几乎所有的应用领域，包括汽车电子、国防、医疗器械、航天航空、高性能计算等领域。其中一种目前主流的可重构计算技术是基于FPGA实现的，基于FPGA的可重构系统是指以FPGA为可重构处理单元的系统。FPGA是细粒度的重构器件，其重构的基本元素是逻辑门、触发器和连线，允许设计者对门器件进行操作，因此FPGA具有很大的灵活性，尤其适用于处理复杂的位计算。当前工程中大多数的算法都依赖于矩阵计算，而矩阵计算或者矩阵分解在很大程度上都是内积计算。

传统的内积计算结构的乘法器数量固定，结构确定，在使用的灵活度上受到极大的限制，而且可移植性差，同时对于维数较小的向量内积计算又造成了资源浪费，难以针对不同的硬件资源生成合理的解决方案，资源利用率不高，可扩展性较差。另一方面，以往对矩阵进行处理时，一般基于向量处理器在FPGA上实现矩阵或者向量运算，这就需要考虑数据的访问模式，尤其是矩阵涉及到二维方向性问题，在对矩阵进行操作时，需要运行多条指令实现，这就使得对数据的访问的效率变得低下。

发明内容

有鉴于此，本发明旨在提出一种基于可重构计算结构的内积计算结构，以解决上述背景技术中存在的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于可重构计算结构的内积计算结构，采用三种基本结构进行多模式组合形成内积计算结构，其中第一基本结构包括两个乘法器和一个加法器，第二基本结构包括三个加法器，第三基本结构包括一个加法器。

进一步的，所述内积计算结构包括两极，其中L1级为基本单元，其中基本单元为上述采用三种基本结构进行多模式组合形成内积计算结构，L2级为加法器，其中，L1级流水线级数为

L2级流水线级数为

其中m为乘法器个数，N为元素个数。

进一步的，处理器依据库函数和定义的指令集将存储器中的数据通过通信模块以设定的数据流格式发送给内积计算结构，数据首先进入到L1级，如果需要计算的维数小于等于16，则跳过L2级，直接得到计算结果；如果计算的内积维数大于16，则需进入L2级，最终计算完成的数据缓存在输出模块中，输出模块将计算结果和L1、L2级索引号以及有效标志位上传至上位机进行整合存储。

进一步的，还包括使用L1级和L2级索引号以及尾标志位来标记矩阵的行列，通过单指令实现对整个矩阵进行操作，其中，指令集分为计算指令和配置指令两类，计算指令包括矩阵计算和向量内积两组指令；配置指令包括内积计算结构配置和结果返回指令。

进一步的，所述基本单元中的乘法操作执行对应元素之间的浮点乘法，具体浮点乘法过程如下：

计算输入a的尾数和输入b的尾数的乘积；

计算输入a和输入b的符号位；

判断输入数据尾数+1的乘积是否大于2；

若是，则输入a和输入b阶数做和且额外加1；

若不是，则输入a和输入b阶数做和。

进一步的，所述基本单元中的加法操作执行对应元素之间的浮点加法，具体浮点加法过程如下：

计算输入a的尾数和输入b阶数的绝对值c；

判断a的阶数是否大于等于b的阶数；

若是，则b的尾数右移c位得b1；

若不是，则a的尾数右移c位得a1；

计算a1+b1并获取其符合和绝对值d以及绝对值d的阶数e；

判断d是否大于等于2；

若是，则a和b阶数较大的值减去e加1；

若不是，则a和b阶数较大的值减去e。

相对于现有技术，本发明所述的一种基于可重构计算结构的内积计算结构具有以下优势：

(1)本发明中内积计算结构随着操作矩阵或者向量的规模变化而变化，当计算的矩阵或者向量的规模有所缩减时，其相应的内积计算结构也会随之变化，会释放其中的一些资源进行其他操作。这样可以在计算内积中节省资源，提高运算效率；

(2)本发明的内积计算结构由3种基本结构构成，这样组合的计算结构简单，容易实现，而且在搭建内积计算结构时更加灵活实用；

(3)本发明针对输入向量维数很高的情形设计了L2级流水线操作，L2级流水线级数为

这样提供了针对较高维向量内积的计算方法。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的矩阵数据流时序图示意图；

图2为本发明实施例所述的8输入内积计算结构示意图；

图3为本发明实施例所述的两级内积计算结构示意图；

图4为本发明实施例所述的指令流水示意图；

图5为本发明实施例所述的向量内积指令的指令流和数据流示意图；

图6为本发明实施例所述的调用结果返回指令以获取结果示意图；

图7为本发明实施例所述的配置指令的指令帧示意图；

图8为本发明实施例所述的浮点乘法计算流程图；

图9为本发明实施例所述的浮点加法计算流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

针对传统的内积计算结构的乘法器数量固定，结构确定，在使用的灵活度上受到极大的限制，而且可移植性差，同时对于维数较小的向量内积计算又造成了资源浪费，难以针对不同的硬件资源生成合理的解决方案，资源利用率不高，可扩展性较差的问题，本发明提供一种基于可重构计算结构的内积计算结构，以图2中的3种结构为基本单元，可以进行多种模式的组合，对于N元素向量的内积，假设此时FPGA资源可以提供的乘法器数目为m个，则得到结果的时延为：

其中时延周期个数为：

其中符号

表示向上取整，整数M_clk亦为流水线的级数。

以3种基本结构来组合生成内积计算结构，这样可以利用最少的资源来得到较高的效率。内积计算结构随着操作矩阵或者向量的规模变化而变化，当计算的矩阵或者向量的规模有所缩减时，其相应的内积计算结构也会随之变化，会释放其中的一些资源进行其他操作。例如开始时刻需计算大量16维向量内积，一段时间后又需要计算8维向量内积，则5级流水的16输入型计算结构会自动退化为两个4级流水的8输入型内积计算结构，这样不仅节省了资源也提高了计算效率。

本发明在图2中的3个基本结构下最大程度上实现了系统资源于数据计算效率之间的平衡，即尽量用最少的资源完成同等的浮点计算量；本发明有较强的通用性，该结构适用于依赖内积计算的算法(例如Least mean square算法、radial-basis-functions算法等)，且基于该结构的算法执行具有低时延的优点。

本发明采用多级流水线设计思路，流水线级数是可配置的，内积计算结构分成L1和L2两级，其中基本模块定义为L1级，加法器定义为L2级。一般而言，L1级流水线级数为

L2级流水线级数为

如图3所示。处理器依据库函数和定义的指令集将存储器中的数据通过通信模块以某种特定的数据流格式发送给内积计算结构，数据首先进入到L1级，如果需要计算的维数小于等于16，则跳过L2级，直接得到计算结果；如果计算的内积维数大于16，则需进入L2级，最终计算完成的数据缓存在输出模块中，输出模块将计算结果和L1、L2级索引号以及有效标志位一同交付，上位机基于此进行整合存储。

本发明为了克服在对矩阵进行操作时，需要运行多条指令实现，使得对数据的访问的效率变得低下的问题，矩阵的截断方式采用图1的方式，使用L1级和L2级索引号以及尾标志位来标记矩阵的行列，这样单指令就可以对整个矩阵进行操作，而无需多个指令才能操作一个矩阵。正是基于此，本发明设计了一套相对比较完整的指令集，以实现单指令操作矩阵的相关运算，例如矩阵乘法操作、向量内积操作、内积计算结构配置、内积结果输出以及索引返回等指令。

指令集分为计算指令和配置指令两类，计算指令包括矩阵计算和向量内积两组指令；配置指令包括内积计算结构配置和结果返回指令。

下面以向量内积指令为例，其指令流和数据流如图5所示。

该指令完成后，对应的数据并行流入转换模块进入基本模块，直至所有的数据输入完成，期间依据流水线思想执行向量内积计算。计算完成后缓存，此后可以调用结果返回指令以获取结果，下面以立即获取结果为例，如图6所示。

在向量内积指令后立即执行立即获取内积指令，即可返回向量内积，也可以选择获取所需维数的计算结果。

配置指令的指令帧如图7所示。

配置类型有内积输入规模和最大缓存规模两种，后面是配置数值，内积输入规模可以配置为8、16和32。

本发明的单指令可以操作矩阵浮点运算，访问效率高，系统具备较为完整的指令集，该指令集亦可以用在其他类似的系统中，比如其他浮/定点计算结构的硬件加速器中；

图4为多级指令流水线操作步骤，以8输入内积计算结构举例说明，最初对数据进行采样并进行缓存，在同步时钟节拍下，进入第1级，第1级为乘法操作，执行对应元素之间的浮点乘法(标量乘法)，本发明设计的浮点乘法运算单元在一个时钟周期下就可以得到运算结果。其结果缓存后，依次进入到第2-4级，第2-4级为累和过程，级间设计缓存结构，同样地，本发明设计的浮点加法运算单元在一个时钟周期下就可以得到运算结果。将最终的内积结果缓存并提交给通信模块，交由上位机根据两级索引做整合处理。

本实施例中，浮点乘法过程如图8所示：

计算输入a的尾数和输入b的尾数的乘积；

计算输入a和输入b的符号位；

判断输入数据尾数+1的乘积是否大于2；

若是，则输入a和输入b阶数做和且额外加1；

若不是，则输入a和输入b阶数做和。

浮点乘法实现举例：

比如2.0乘以0.5为例，单精度浮点数2.0的16进制格式为：4000000，对应的2进制格式为0100 0000 0000 0000 0000 0000 0000 0000，符号位为0，指数位为1000 0000，尾数为0000 0000 0000 0000 0000 000；

单精度浮点数0.5的16进制格式为：3F00000，对应的2进制格式为00111111 00000000 0000 0000 0000 0000，符号位为0，指数位为0111 1110，尾数为0000 0000 00000000 0000 000；

计算时分为三个步骤，且三个步骤同时进行，这是单时钟得出结果的原因。步骤一，乘积符号位为两个符号位的异或，故符号位为0；步骤二，指数相差1，0.5的1+尾数，得到1000 0000 0000 0000 0000 0000，2.0的尾数为1000 0000 0000 0000 0000 0000，相乘得到1000 0000 0000 0000 00000000，这个结果小于2，指数不加1，于是得到乘积尾数为0000000 0000 00000000 0000；步骤三，指数取二者之和，且根据步骤二不加1，于是得到乘积的指数为0111 1111。于是得到乘积的16进制的浮点格式3F800000，转换成十进制为1.0。

本实施例中，浮点加法过程如图9所示：

计算输入a的尾数和输入b阶数的绝对值c；

判断a的阶数是否大于等于b的阶数；

若是，则b的尾数右移c位得b1；

若不是，则a的尾数右移c位得a1；

计算a1+b1并获取其符合和绝对值d以及绝对值d的阶数e；

判断d是否大于等于2；

若是，则a和b阶数较大的值减去e加1；

若不是，则a和b阶数较大的值减去e。

浮点加法实现举例：

计算时分为三个步骤，且三个步骤同时进行，这是单时钟得出结果的原因。步骤一，两个都是正数，和还为正数，故符号位为0；步骤二，指数相差1，0.5的1+尾数向右移位2位，得到0010 0000 0000 0000 0000 0000，2.0的尾数为1000 0000 0000 0000 00000000，相加得到1010 0000 0000 00000000 0000，于是得到尾数为010 0000 0000 00000000 0000；步骤三，指数取二者中的最大值，于是得到乘积的指数为1000 0000。于是得到乘积的16进制的浮点格式40200000，转换成十进制为2.5。

本发明的内积的浮点计算结构可以配置，其可扩展性强，使用灵活。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于可重构计算结构的内积计算方法，其特征在于：采用三种基本结构进行多模式组合形成内积计算结构，其中第一基本结构包括两个乘法器和一个加法器，第二基本结构包括三个加法器，第三基本结构包括一个加法器。

2.根据权利要求1所述的一种基于可重构计算结构的内积计算方法，其特征在于：所述内积计算结构包括两极，其中L1级为基本单元，其中基本单元为上述采用三种基本结构进行多模式组合形成内积计算结构，L2级为加法器，其中，L1级流水线级数为

L2级流水线级数为

其中m为乘法器个数，N为元素个数。

3.根据权利要求2所述的一种基于可重构计算结构的内积计算方法，其特征在于：处理器依据库函数和定义的指令集将存储器中的数据通过通信模块以设定的数据流格式发送给内积计算结构，数据首先进入到L1级，如果需要计算的维数小于等于16，则跳过L2级，直接得到计算结果；如果计算的内积维数大于16，则需进入L2级，最终计算完成的数据缓存在输出模块中，输出模块将计算结果和L1、L2级索引号以及有效标志位上传至上位机进行整合存储。

4.根据权利要求3所述的一种基于可重构计算结构的内积计算方法，其特征在于：还包括使用L1级和L2级索引号以及尾标志位来标记矩阵的行列，通过单指令实现对整个矩阵进行操作，其中，指令集分为计算指令和配置指令两类，计算指令包括矩阵计算和向量内积两组指令；配置指令包括内积计算结构配置和结果返回指令。

5.根据权利要求2所述的一种基于可重构计算结构的内积计算方法，其特征在于：所述基本单元中的乘法操作执行对应元素之间的浮点乘法，具体浮点乘法过程如下：

计算输入a的尾数和输入b的尾数的乘积；

计算输入a和输入b的符号位；

判断输入数据尾数+1的乘积是否大于2；

若是，则输入a和输入b阶数做和且额外加1；

若不是，则输入a和输入b阶数做和。

6.根据权利要求2所述的一种基于可重构计算结构的内积计算方法，其特征在于：所述基本单元中的加法操作执行对应元素之间的浮点加法，具体浮点加法过程如下：

计算输入a的尾数和输入b阶数的绝对值c；

判断a的阶数是否大于等于b的阶数；

若是，则b的尾数右移c位得b1；

若不是，则a的尾数右移c位得a1；

计算a1+b1并获取其符合和绝对值d以及绝对值d的阶数e；

判断d是否大于等于2；

若是，则a和b阶数较大的值减去e加1；

若不是，则a和b阶数较大的值减去e。