CN112286490B

CN112286490B - 一种循环迭代乘加运算的硬件架构及方法

Info

Publication number: CN112286490B
Application number: CN202011254262.2A
Authority: CN
Inventors: 王中风; 吴博; 田静
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2024-04-02
Anticipated expiration: 2040-11-11
Also published as: CN112286490A

Abstract

本申请示出一种循环迭代乘加运算的硬件架构及方法，用于公式的计算，包括：接收单元、选择单元、乘法器、加法器以及存储单元；乘法器计算a_n‑1和R的乘法结果输出至加法器，加法器计算乘法结果与第二选择器的筛选结果得到加法结果并将其分为高位和低位，输出至选择器进行下一轮循环迭代乘加运算，共进行n(n‑1)个时钟周期完成整个运算。本申请示出的一种循环迭代乘加运算的硬件架构及方法，计算复杂度低、资源消耗低、占用面积小，在需要计算该公式且对面积以及时钟频率有要求的特定场合能起到重要作用。

Description

一种循环迭代乘加运算的硬件架构及方法

技术领域

本发明涉及计算机运算领域，主要涉及一种循环迭代乘加运算的硬件架构及方法。

背景技术

数学公式的在多项式计算中经常被使用，常规计算方法分别计算a₀，a₁·R，…，a_n-1·R^n-1，并将其全部相加，总共需要/>个乘法和n-1个加法，不同尺寸的乘法占用资源不同，乘法尺寸越大占用资源越多，常规计算方法需要较大计算量，尤其是当参数n数值较大时，需要较长的计算时间，占用较多的存储资源。

现有技术中，通常采用计算机软件程序计算该数学公式，时间长，功耗高，成本贵，在许多需要计算大数乘法的领域，诸如密码学领域需要提供一种计算复杂度低、资源消耗低、占用面积小，在需要计算该公式且对面积以及时钟频率有要求的特定场合能起到重要作用的硬件架构及方法。

发明内容

基于上述问题，本申请的目的在于提供一种循环迭代乘加的方法及硬件架构及方法，以解决现有计算公式时间长，功耗高，成本贵的问题。

第一方面，本申请示出一种循环迭代乘加运算的硬件架构，其特征在于，用于公式的计算，包括：接收单元、选择单元、乘法器、加法器以及存储单元；

所述接收单元用于接收参数；所述接收单元包括:第一接收端、第二接收端以及第三接收端；

所述选择单元用于筛选参数；所述选择单元包括：第一选择器、第二选择器、第三选择器、第四选择器、第五选择器以及第六选择器；

所述乘法器用于将筛选出的参数与R进行乘法运算，输出乘法结果；

所述加法器用于将乘法结果与筛选出的参数进行加法运算，输出加法结果；

所述存储单元与选择单元连接，用于寄存参数；所述存储单元包括：第一寄存器、第二寄存器和第三寄存器；

所述第一接收端用于接收R，所述第一接收端与乘法器连接；所述第二接收端用于接收a_n-1，所述第二接收端与第一选择器连接；所述第一选择器与乘法器连接，第一选择器将筛选出的a_n-1或S_j传输至乘法器，乘法器将a_n-1或S_j以及R进行乘法运算，输出乘法结果至加法器；

第一寄存器用于寄存a₀～a_n-2，第二寄存器用于寄存D，第一寄存器和第二寄存器与第二选择器连接，第二选择器将筛选出的a₀～a_n-2或D传输至加法器，所述加法器将乘法结果和第二选择器的筛选结果进行加法运算，输出加法结果P_j，所述加法结果P_j分为高位P_H和低位P_L,高位P_H输入第三选择器，低位P_L输入第四选择器；

所述第三接收端用于接收S_j+1，所述第三接收端与第三选择器连接，第三选择器筛选S_j+1或高位P_H至第五选择器，第四选择器筛选S_j至第三寄存器，第五选择器筛选S_j+1或高位P_H至第三寄存器，第三寄存器筛选S_j或S_j+1至第六选择器，所述第六选择器与所述第一选择器连接。

第二方面，本申请示出一种循环迭代乘加运算的方法，其特征在于，用于公式的计算，所述一种循环迭代乘加运算的方法基于上述循环迭代乘加运算的硬件架构，所述循环迭代乘加运算的方法包括：

输入公式所述a_i(i＝0～n-1)取值范围为a_i大于或等于0小于R，所述R的取值范围为R大于或等于2^w-1小于2^w，所述w为位宽；

对参数i从1遍历至n-1；对参数j从1遍历至i；

当i＝1，j＝1时，根据公式计算a_n-1·R+a_n-2，得到加法结果P₁，所述加法结果P₁分为高位S₂和低位S₁；

将高位S₂和低位S₁进行循环迭代乘加运算，当j＝2时，计算得到(a_n-1·R+a_n-2)R+a_n-3，依次类推，则第i个R相加需要进行i次循环迭代乘加运算，共进行个周期；得到结果C＝{S_n,S_n-1,…,S₁}。

由以上技术方案可知，本申请示出一种循环迭代乘加运算的硬件架构及方法，用于公式的计算，包括：接收单元、选择单元、乘法器、加法器以及存储单元；乘法器计算a_n-1和R的乘法结果输出至加法器，加法器计算乘法结果与第二选择器的筛选结果得到加法结果并将其分为高位和低位，输出至选择器进行下一轮循环迭代乘加运算，共进行n(n-1)个时钟周期完成整个运算。本申请示出的一种循环迭代乘加运算的硬件架构及方法，计算复杂度低、资源消耗低、占用面积小，在需要计算该公式且对面积以及时钟频率有要求的特定场合能起到重要作用。

附图说明

为了更清楚的说明申请的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中硬件架构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中的技术方案作进一步详细的说明。显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

为了便于理解，首先对本申请的背景进行介绍，公式在多项式计算中常被使用，但其常规计算方法分别计算a₀,a₁·R，…，a_n-1·R^n-1，并将其全部相加，总共需要/>个乘法和n-1个加法，不同尺寸的乘法占用资源不同，乘法尺寸越大占用资源越多，常规计算方法需要较大计算量，尤其是当参数n数值较大时，需要较长的计算时间，占用较多的存储资源。本申请的目的在于提供一种循环迭代乘加的方法及硬件架构及方法，以解决现有计算公式/>时间长，功耗高，成本贵的问题。

本申请示出的技术方案首先将公式的常规计算方法进行了一轮变换，变换后公式如下：

该公式适用于本申请提出的硬件架构。

参阅图1，图1为本申请示出的一种循环迭代乘加运算的硬件架构示意图，本申请示出的一种循环迭代乘加运算的硬件架构，用于公式的计算，包括：接收单元1、选择单元2、乘法器3、加法器4以及存储单元5；

所述接收单元1用于接收参数；所述接收单元1包括:第一接收端11、第二接收端12以及第三接收端13；

所述选择单元2用于筛选参数；所述选择单元2包括：第一选择器21、第二选择器22、第三选择器23、第四选择器24、第五选择器25以及第六选择器26；

所述乘法器3用于将筛选出的参数与R进行乘法运算，输出乘法结果；

所述加法器4用于将乘法结果与筛选出的参数进行加法运算，输出加法结果；

所述存储单元5与选择单元2连接，用于寄存参数；所述存储单元5包括：第一寄存器51、第二寄存器52和第三寄存器53；

所述参数包括：i(i＝0～n-1)、a_i、R、j(j＝1～n-1)、D、S_j和S_j+1，所述i(i＝0～n-1)、a_i和R为公式中参数，所述j为程序运行过程中的循环次数，所述D为循环迭代乘加运算过程中产生的中间值，所述S_j和S_j+1为循环迭代乘加运算过程中产生的运算结果。

所述第一接收端11用于接收R，所述第一接收端11与乘法器3连接；所述第二接收端12用于接收a_n-1,所述第二接收端12与第一选择器21连接；所述第一选择器21与乘法器3连接，第一选择器21将筛选的a_n-1或S_j传输至乘法器3，乘法器3将a_n-1或S_j以及R进行乘法运算，输出乘法结果至加法器4。

第一寄存器51用于寄存a₀～a_n-2，第二寄存器52用于寄存D，第一寄存器51和第二寄存器52与第二选择器22连接，第二选择器22将筛选的a₀～a_n-2或D传输至加法器4，所述加法器4将乘法结果和第二选择器22的筛选结果进行加法运算，输出加法结果P_j，所述加法结果P_j分为高位P_H和低位P_L,高位P_H输入第三选择器23，低位P_L输入第四选择器24。

所述第三接收端13用于接收S_j+1，所述第三接收端13与第三选择器23连接，第三选择器23筛选S_j+1或高位P_H至第五选择器25，第四选择器24筛选Sj至第三寄存器53，第五选择器25筛选S_j+1或高位P_H至第三寄存器53，第三寄存器53筛选S_j或S_j+1至第六选择器26，所述第六选择器26与所述第一选择器连接21。

所述一种循环迭代乘加运算的硬件架构依据于以下方法：

该方法可进一步参照以下方法：

参阅上述方法，所述一种循环迭代乘加运算的方法基于循环迭代乘加运算的硬件架构，所述循环迭代乘加运算的方法包括：

输入公式所述a_i(i＝0`n-1)取值范围为a_i大于或等于0小于R，所述R的取值范围为R大于或等于2^w-1小于2^w，所述w为位宽；

对参数i从1遍历至n-1；对参数j从1遍历至i；

该方法中，由于第i个R相加需要进行i次循环迭代乘加运算，共需要n-1个乘R相加的运算，因此总的循环迭代乘加次数为由于硬件架构中关键路径插入了一级流水线，所以每个方法周期需要在硬件架构中运行两个时钟周期，硬件架构中，完成整个运算需要n(n-1)个时钟周期。

在一可行性实施例中，当i＝1，j＝1时，第二接收端12接收a_n-1，第二接收端12与第一选择器21连接，输入a_n-1至第一选择器21，第一选择器21输入a_n-1至乘法器3，第一接收端11接收R，输入R至乘法器3，所述乘法器3将a_n-1与R进行乘法运算，输出第一乘法结果a_n-1·R至加法器4，第一寄存器51输入a₀～a_n-2至第二选择器22，第二选择器22筛选a_n-2至加法器4，所述加法器4将第一乘法结果a_n-1·R和a_n-2进行加法计算，输出第一加法结果P₁＝a_n-1·R+a_n-2，所述第一加法结果P₁位宽为2w，将所述第一加法结果P₁分为前w位的高位P_H和后w位的低位P_L，所述高位P_H为S₂，低位P_L为S₁，则C＝{S₂,S₁}。

在一可行性实施例中，当i＝2，j＝1～i时；在i＝1，j＝1基础上进行循环迭代乘加运算，当i＝1，j＝1时，输出高位S₂和低位S₁，所述高位S₂输入至第三选择器23，所述低位S₁输入至第四选择器24，所述第三选择器23输入高位S₂至第五选择器25，所述第四选择器24及第五选择器25分别输入S₁及S₂至第三寄存器53。

当i＝2，j＝1时，第三寄存器53输入S₁和S₂至第六选择器26，第六选择器26输入S₁至第一选择器21，第一选择器21输入S₁至乘法器3，所述乘法器3将S₁与R进行乘法运算，输出第二乘法结果S₁·R至加法器4，第一寄存器51输入a_n-3至加法器4，所述加法器4将第二乘法结果S₁·R和a_n-3进行加法计算，输出第二加法结果P₂＝S₁·R+a_n-3，所述第二加法结果分为高位的D以及低位的S₁，高位D输入第二寄存器52，低位S₁输入第四选择器24，第四选择器24输入S₁至第三寄存器53，由于此时j不等于i，S_j+1作为下一个乘加的输入，继续进行循环迭代乘加运算；

当i＝2，j＝2时，第三寄存器53输入S₁和S₂至第六选择器26，第六选择器26筛选S₂至第一选择器21，第一选择器21输出S₂至乘法器3，乘法器3将S₂及R进行乘法运算，得到第三乘法结果S₂·R，第二寄存器52输入D至第二选择器22，第二选择器22输入D至加法器4，所述加法器4将第三乘法结果S₂·R与D进行加法运算，得到第三加法结果P₃＝S₂·R+D，由于此时j等于i，S_j+1等于高位P_H，所述P₃分为高位S₃和低位S₂,则当i＝2，j＝2时，所得结果C为C＝{S₃,S₂,S₁}。

对于i＝1～n-1，j＝1～i，其计算过程以此类推；

当i＝n-1，j＝n-1时，C＝{S_n,S_n-1,…,S₁}。

通过上述硬件架构，我们可以低资源消耗、短关键路径地完成计算通过Verilog代码在FPGA板上对本申请所示方法实例进行综合和布局布线。为了使时钟频率能够达到200M赫兹，在乘法过程中插了一级流水线，因此完成整个过程需要n(n-1)个时钟周期。

下表为一可行性实施例中本申请示出的一种循环迭代乘加运算的硬件架构的技术效果：

表1本申请所示方法实施例综合和布局布线的面积和时序结果

该实施例采用vivado设计套件2018.2版本在Xilinx Virtex-7xc7vx690tffg1157-3的集成电路板上对本申请示出的硬件架构进行了综合，取R的位宽为w＝63，n＝12。结果如上表所示，结果A的位宽为756bit，所消耗的数字信号处理器DSP、查找表LUT、触发器的资源都是比较少的，仅仅等效于746Slices(FPGA中的基本计数单元)，且时钟频率能够达到200兆赫兹，由于本申请示出的硬件架构面积小、频率高，且计算量较大，完成这个计算需要132个时钟周期。

同时，为了明确本申请示出的硬件架构具有较优的技术效果，与其他计算的硬件架构进行比较；对其他硬件架构计算/>的方法进行综合仿真，同样采用公式：

该硬件架构技术效果为：

表2其他硬件架构综合和布局布线的面积和时序结果

由表1和表2比较可知，本申请示出的技术方案能够占用更少面积，达到更高频率，较于其他硬件架构计算公式的方法有更高的优化水平。

本发明的关键点在于针对公式运用循环迭代乘加运算的方法，提出了一种全新的少面积，高频率的硬件架构。这种硬件架构是第一次被提出来，且在一些需要计算该公式的特定场合能起到作用，如在一些对面积或者频率有要求的设计中，较于现有技术采用计算机软件程序计算该数学公式，时间长，功耗高，成本贵，在许多需要计算大数乘法的领域，诸如密码学领域，本申请提供的一种循环迭代乘加运算的硬件架构及方法，计算复杂度低、资源消耗低、占用面积小，在需要计算该公式且对面积以及时钟频率有要求的特定场合能起到重要作用。

应当理解，本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列环节不必限于清楚列出的那些环节，而是可包括没有清楚地列出的或对于这些技术常规使用的其他环节。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种循环迭代乘加运算的硬件装置，其特征在于，用于公式的计算，包括：接收单元(1)、选择单元(2)、乘法器(3)、加法器(4)以及存储单元(5)；

所述接收单元(1)用于接收参数；所述接收单元(1)包括:第一接收端(11)、第二接收端(12)以及第三接收端(13)；

所述选择单元(2)用于筛选参数；所述选择单元(2)包括：第一选择器(21)、第二选择器(22)、第三选择器(23)、第四选择器(24)、第五选择器(25)以及第六选择器(26)；

所述乘法器(3)用于将筛选出的参数与R进行乘法运算，输出乘法结果；

所述加法器(4)用于将乘法结果与筛选出的参数进行加法运算，输出加法结果；

所述存储单元(5)与选择单元连接，用于寄存参数；所述存储单元(5)包括：第一寄存器(51)、第二寄存器(52)以及第三寄存器(53)；

所述第一接收端(11)用于接收R，所述第一接收端(11)与乘法器(3)连接；所述第二接收端(12)用于接收a_n-1，所述第二接收端(12)与第一选择器(21)连接；所述第一选择器(21)与乘法器(3)连接，第一选择器(21)将筛选出的a_n-1或S_j输至乘法器(3)，j为程序运行过程中的循环次数，所述S_j为循环迭代乘加运算过程中产生的运算结果，乘法器(3)将a_n-1或S_j以及R进行乘法运算，输出乘法结果至加法器(4)；

第一寄存器(51)用于寄存a₀～a_n-2，第二寄存器(52)用于寄存D，所述D为循环迭代乘加运算过程中产生的中间值，第一寄存器(51)和第二寄存器(52)与第二选择器(22)连接，第二选择器(22)将筛选出的a₀～a_n-2或D传输至加法器(4)，所述加法器(4)将乘法结果和第二选择器(22)的筛选结果进行加法运算，输出加法结果P_j，所述加法结果P_j分为高位P_H和低位P_L,高位P_H输入第三选择器(23)，低位P_L输入第四选择器(24)；

所述第三接收端(13)用于接收S_j+1，所述S_j+1为循环迭代乘加运算过程中产生的运算结果，所述第三接收端(13)与第三选择器(23)连接，第三选择器(23)筛选S_j+1或高位P_H至第五选择器(25)，第四选择器(24)筛选S_j至第三寄存器(53)，第五选择器(25)筛选S_j+1或高位P_H至第三寄存器(53)，第三寄存器(53)筛选S_j或S_j+1至第六选择器(26)，所述第六选择器(26)与所述第一选择器(21)连接；

所述硬件装置，被配置为：输入公式所述a_i(i＝0～n-1)取值范围为a_i大于或等于0小于R，所述R的取值范围为R大于或等于2^w-1小于2^w，所述w为位宽；

对参数i从1遍历至n-1；对参数j从1遍历至i；

2.一种循环迭代乘加运算的方法，其特征在于，所述一种循环迭代乘加运算的方法基于权利要求1所述的一种循环迭代乘加运算的硬件装置来实现，所述循环迭代乘加运算的方法包括：

对参数i从1遍历至n-1；对参数j从1遍历至i；