CN104239279A

CN104239279A - 一种乘法器

Info

Publication number: CN104239279A
Application number: CN201410459796.7A
Authority: CN
Inventors: 潘正祥; 杨春生; 李秋莹; 闫立军; 蔡正富
Original assignee: Airmate Electrical Shenzhen Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Airmate Electrical Shenzhen Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2014-12-24

Abstract

本发明适用于领域，提供了一种数位并行乘法器，包括输入端A、输入端B₀...B_P-2B_P-1、输出端C及计算单元，所述输入端A及输入端B₀...B_P-2B_P-1分别输入计算单元，经过计算处理后自所述计算单元的输出端C输出，所述计算单元输出的计算公式：C＝R(AB₀+AB₁x^d+…+AB_p-1x^d(p-1))modF(x)，其中，R是一个非零多项式，x是不可约多项式F(x)的一个根，d是分割长度，p是分割的段数，mod F(x)是对所得结果进行约减，即求模运算。本申请中提到的乘法器具有空间复杂度低，具有面积小、功耗低，提高计算效率，具有可扩展性。

Description

一种乘法器

技术领域

本发明属于数字编码领域，尤其涉及一种低复杂度数位串行并可扩展以为多项式基乘法器。

背景技术

Diffie-Hel Iman秘钥交换、数字签名、椭圆曲线密码器和配对密码器等应用都涉及有限域乘法器计算。对于配对密码器，基于椭圆曲线运算的Weil和Tate配对需要大量计算，其操作参数属于超大有限域。例如，要128位的堆成密码安全，基于超奇异椭圆曲线的Tate配对需要在复合域GF(2^4×1223)进行运算。因此，如何有效在硬件上设计在超大有限域上的乘法运算是一个巨大挑战，特别是在资源有限的硬件上。

对于GF(2^m)有限域乘法的硬件实现，不可约多项式F(x)的最佳选择是一个低位多现实，例如三项多现实和五项多项式。文献[6]提到了不是所有的域都存在三项多项式，但对于M＞4的有限域肯定存在五项多项式。为了有效实现乘法运算，文献[7]提出了一种变形的多项式基地，叫位移多项式基(Shifted Polynomial Basis，SPB).由于这种位移多项式基能够在时间或空间上有效实现有限域乘法运算，文献[8]和[9]多种基于此基地的乘法器。对于一些五项多项式，文献[10]和[11]给出了特定m值得位移多项式乘法器。最近，文献[12]提出了一种一般化的多项式基(GeneralizedPolynomial Basis，GPB)乘法器，并给出位移多项式基是一般化多项式基的一种。

文献[13]至文献[21]提出多种乘法器架构，这些乘法器架构可分为两类，一种是脉动结构，另一种是非脉动结构。一般地，脉动结构的乘法器能够提供更高的吞吐量，同时由于高频率操作，所消耗的能量很高。除此之外，脉动结构原本在域的最小平方根运算具有很高延迟，并需要大量的暂存器。此外，高频率操作和高吞吐量的脉动结构并不适用于大多数实际应用。因此，为了避免脉动结构的缺点，在二位元扩域和素数域中，一些非脉动结构并可扩展乘法器被提出。这种可扩展特性是利用硬件折叠来确定部分积的数量，以此获得完整的乘法结果，从而能够在时间和空间复杂度上取得平衡。文献[15]、[19]和[21]的可扩展乘法器是基于固定大小d×d的Hanke I矩阵向量乘积(Hanke I Matrix-Vector Product，HMVP)方法设计。利用经典的分割方法，完整的乘法结果是通过部分积得到的。选择合适的HMVP结构能够产生比经典数位串行乘法器更低延迟的架构。

利用分而治之的方法，Karatsuba-Ofman方法(Karatsub-OfmanAlgorithm，KA)能够提供一种有效分割方法，实现低延迟乘法运算。为了进一步降低延迟，文献[23]已经给出5、6和7分割方法。文献[24]讲这种方法引用到次二次Toeplitz矩阵向量乘积(Toeplitz Matrix-VectorProduct，TMVP)中，来实现有限基于优化的正规基，对偶基和位移多项式基。最近，文献[25]提出了一种利用次二次TMVP方法设计的低延迟数位串行脉动结构的双基底乘法器。文献[26]也提出一种基于Karatsuba方法的数位串行脉动结构乘法器，具有低延迟特性。

[6]G.Seroussi，“Table of low-weight binary irreducible polynomials，”Hewlett-Packard Laboratones，Palo Alto，CA，Tech.Rep.HPL-98-135，Aug.1998.

[7]H.Fan and Y.Dai，“Fast Bit-Parallel GF(2ⁿ)Multiplier for AllTrinomials，”IEEE Trans.Computers，vol.54，no.4，pp.485-490，2005.

[8]H.Fan and M.Hasan，“Fast Bit Parallel Shifted Polynomial BasisMultipliers in GF(2ⁿ)，”IEEE Trans.Circuits and Systems I：Regular Papers，vol.53，no.12，pp.2606-2615，2006.

[9]S.-M.Park and K.-Y.Chang，“Fast Bit-Parallel Shifted PolynomialBasis Multiplier Using Weakly Dual Basis Over GF(2^m)，”IEEE Trans.VLSISyst.，vol.19，no.12，pp.2317-2321，2011.

[10]A.Cilardo，“Efficient Bit-Parallel GF(2^m)Multiplier for a LargeClass of Irreducible Pentanomials，”IEEE Trans.Computers，vol.58，no.7，pp.1001-1008，2009.

[11]J.L.Ima～na，“Efficient Polynomial Basis Multipliers for Type-IIIrreducible Pentanomials，”IEEE Trans.on Circuits and Systems，vol.59-II，no.11，pp.795-799，2012.

[12]A.Cilardo，“Fast Parallel GF(2^m)Polynomial Multiplication for AllDegrees，”IEEE Trans.Computers，vol.62，no.5，pp.929-943，2013.

[13]P.K.Meher，“Systolic and Super-Systolic Multipliers for Finite FieldGF(2^m)Based on Irreducible Trinomials，”IEEE Trans.Circuits and Systems I：Regular Papers，vol.55，no.4，pp.1031-1040，2008.

[14]C.-Y.Lee，E.H.Lu，and J.Y.Lee，“Bit-Parallel Systolic Multipliersfor GF(2^m)Fields Defined by All-One and Equally Spaced Polynomials，”IEEE Trans.Computers，vol.50，no.5，pp.385-393，2001.

[15]Y.Y.Hua，J.-M.Lin，C.W.Chiou，C.-Y.Lee，and Y.H.Liu，“Lowspace-complexity digit-serial dual basis systolic multiplier over Galois fieldGF(2^m)using Hankel matrix and Karatsuba algorithm，”IET InformationSecurity，vol.7，no.2，p.V86，2013.

[16]J.-C.Jeon，K.-W.Kim，and K.-Y.Yoo，“A novel approach forbit-serial AB2 multiplication in finite fields GF(2^m)，”Computers &Mathematics withApplications，vol.51，no.6-7，pp.1103-1112，2006.

[17]M.Morales-Sandoval，C.F.Uribe，and P.Kitsos，“Bit-serial anddigit-serial GF(2^m)Montgomery multipliers using linear feedback shiftregisters，”IET Computers & Digital Techniques，vol.5，no.2，pp.86-94，2011.

[18]C.W.Chiou，H.W.Chang，W.-Y.Liang，C.-Y.Lee，J.-M.Lin，andY.-C.Yeh，“Low-Complexity Gaussian Normal Basis Multiplier over GF(2^m)，”IET Information Security，vol.6，no.4，pp.310-317，2012.

[19]L.H.Chen，P.L.Chang，C.-Y.Lee，and Y.K.Yang，“Scalable andSystolic Dual Basis Multiplier over GF(2^m)，”IntlJournal of InnovativeComputing，Information and Control，vol.7，no.3，pp.1193-1208，Mar.2011.

[20]A.Hariri and A.Reyhani-Masoleh，“Digit-Serial Structures for theShifted Polynomial Basis Multiplication over Binary Extension Fields，”in Proc.LNCS Intl workshop Arithmetic of Finite Fields(WAIFI)，ser.LNCS，vol.5130，2008，pp.103-116，2008.

[21]C.-Y.Lee and C.Chiou，“Scalable Gaussian Normal Basis Multipliersover GF(2^m)Using Hankel Matrix-Vector Representation，”Journal of SignalProcessing Systems，vol.69，no.2，pp.l97-211，2012.

[22]A.Karatsuba andY.Ofman，“Multiplication of Multidigit Numberson Automata，”ISoviet Physics-Doklady(English translation)，vol.7，no.7，pp.595-596，1963.

[23]P.Montgomery，“Five，six，and seven-term karatsuba-like formulae，”IEEE Trans.Computers，vol.54，no.3，pp.362-369，2005.

[24]H.Fan and M.Hasan，“Subquadratic computational complexityschemes for extended binary field multiplication using optimal normal bases，”IEEE Trans.Computers，vol.56，no.10，pp.14-35，2007.

[25]J.-S.Pan，R.Azarderakhsh，M.M.Kermani，C.-Y.Lee，W.-Y.Lee，C.W.Chiou，and J.-M.Lin，“Low-Latency Digit-Serial Systolic Double BasisMultiplier Over GF(2^m)Using Subquadratic Toeplitz Matrix-Vector ProductApproach，”IEEE Trans.Computers，vol.63，no.5，pp.1169-1181，2014.

[26]J.-S.Pan，C.-Y.Lee，and P.K.Meher，“Low-latency digit-serial anddigit-parallel systolic multipliers for large binary extension fields，”IEEE Trans.Circuits and Systems-I，vol.60，no.12，pp.3195-3204，2013.

发明内容

本发明的目的在于提供一种低复杂度数位串行并可扩展以为多项式基乘法器，旨在解决现有技术中乘法器存在的问题。

本发明是这样实现的，一种数位并行乘法器，该数位并行乘法器包括输入端A、输入端B₀...B_P-2B_P-1、输出端C及计算单元，所述输入端A及输入端B₀...B_P-2B_P-1分别输入计算单元，经过计算处理后自所述计算单元的输出端C输出，所述计算单元输出的计算公式：

C＝R(AB₀+AB₁x^d+…+AB_p-1x^d(p-1))mod F(x)，其中，R是一个非零多项式，x是不可约多项式F(x)的一个根，d是分割长度，p是分割的段数，mod F(x)是对所得结果进行约减即求模运算。

本发明的进一步技术方案是：所述计算单元需要时钟周期用于完成A和B的乘法运算，其中每个时钟周期的间隔为T＝T_A+(1+3log_bn)T_X，T_A和T_X分别表示一个AND逻辑门和一个XOR逻辑门的延迟。

本发明的进一步技术方案是：所述计算单元包括EP1模块、第一运算模块、第二运算模块及加法器，所述输入端A输入所述EP1模块输入端，所述EP1模块输出端分别输入所述第一运算模块及第二运算模块的输入端，所述输入端B₀...B_P-2B_P-1依次输入所述第一运算模块及第二运算模块中的EP2单元的输入端，所述第一运算模块及第二运算模块的输出端分别输入加法器输入端，经所述加法器运算后输出，所述第二运算模块为多个依次平行设置。

本发明的进一步技术方案是：所述第一运算模块包括EP2单元、PWM单元及重构单元，所述EP2单元输出端连接所述PWM单元输入端，所述PWM单元输出端连接所述重构单元输入端。

本发明的进一步技术方案是：所述第二运算模块包括EP2单元、PWM单元、重构单元及移位单元，所述EP2单元输出端连接所述PWM单元输入端，所述PWM单元输出端连接所述重构单元输入端，所述重构单元输出端连接所述移位单元输入端。

本发明的另一目的在于提供一种数位串行乘法器，该乘法器包括权利要求1-3任一项所述的数位并行乘法器、累加单元及FPR单元，所述数位并行乘法器输出端连接所述累加单元输入端，所述累加单元输出端连接所述FPR单元输入端，经过计算处理后自所述FPR单元的输出端输出，所述累加单元由(n+d-1)个XOR逻辑门构成，用于计算当前部分积A_iB_i和暂存器<D>保存的值D的和；所述FPR单元实现计算输出C，其公式：C＝RD mod F(x)，其中，R是一个非零多项式，D是A和B乘积结果，mod F(x)是对所得结果进行约减即求模运算。

本发明的进一步技术方案是：所述累加单元包括加法器、暂存器D及移位模块，所述加法器输出端连接所述暂存器D输入端，所述暂存器D输出端连接所述移位模块输入端，所述移位模块输出端连接所述加法器输入端。

本发明的另一目的在于提供一种可扩展SPB/GPB的乘法器，所述乘法器包括权利要求1-5任一项所述的数位并行乘法器、控制单元、两个操作数生成电路、暂存器A、暂存器B、数位对齐电路及FPR单元，所述暂存器A的输出端经一所述操作数生成电路连接所述数位并行乘法器输入端，所述暂存器B的输出端经一所述操作数生成电路连接所述数位并行乘法器输入端，所述控制单元的输出端分别连接两个所述操作数生成电路的输入端和所述数位对齐电路的输入端，所述数位并行乘法器输出端连接所述数位对齐电路的输入端，所述数位对齐电路的输出端连接所述FPR单元的输入端，经所述FPR单元运算输出C，其C公式：C＝RD mod F(x)，两个所述操作数生成电路的计算公式分别为：

{\overset{&OverBar;}{A}}_{i} = (s_{i, 00} A_{0} + s_{i, 01} A_{1} + s_{i, 02} A_{2}) + (s_{i, 10} A_{0} + s_{i, 11} A_{1} + s_{i, 12} A_{2}),

{\overset{&OverBar;}{B}}_{i} = (s_{i, 00} B_{0} + s_{i, 01} B_{1} + s_{i, 02} B_{2}) + (s_{i, 10} B_{0} + s_{i, 11} B_{1} + s_{i, 12} B_{2}),

所述数位并行乘法器计算公式为：所述数位对齐电路的计算公式为：

D = D + (s_{i, 20} + s_{i, 21} x^{n} + s_{i, 22} x^{2 n} + s_{i, 23} x^{3 n} + s_{i, 24} x^{4 n}) {\overset{&OverBar;}{C}}_{i},

其中R是非零多项式，所述数位并行乘法器输入所述数位对齐电路线路上的位数为：

本发明的进一步技术方案是：所述操作数生成电路包括两个控制器MUX及加法器，两个所述控制器的输出端分别输入所述加法器的输入端。

本发明的进一步技术方案是：所述数位对齐电路包括控制总线、加法器及暂存器D，所述控制总线输出端连接所述加法器输入端，所述加法器输出端连接所述暂存器D输入端，所述暂存器D输入端连接所述加法器输入端，所述控制总线输入所述加法器线路上的位数为：(2m-1)-bit。

本发明的有益效果是：本申请中提到的乘法器具有空间复杂度低，具有面积小、功耗低，提高计算效率，具有可扩展性。在实际应用中，满足实际需求情况前提下，所提到的乘法器能够在时间和空间上取得平衡。所设计的乘法器是有规则的，模块化，易于在大规模集成电路上实现，可应用在数字签名、椭圆曲线密码器、配对密码器等应用中。

附图说明

图1是现有的KA结构功能块；

图2是基于(4，2)路KA分解方法的乘法器上层结构；

图3是本发明实施例提供的数位并行乘法器的结构图；

图4是本发明实施例提供的数位串行乘法器的结构图；

图5是本发明实施例提供的可扩展SPB/GPB乘法器的结构图。

具体实施方式

图3示出了本发明提供的一种数位并行乘法器，该数位并行乘法器包括输入端A、输入端B₀...B_P-2B_P-1、输出端C及计算单元，所述输入端A及输入端B₀...B_P-2B_P-1分别输入计算单元，经过计算处理后自所述计算单元的输出端C输出，所述计算单元输出的计算公式：

所述计算单元需要时钟周期用于完成A和B的乘法运算，其中每个时钟周期的间隔为T＝T_A+(1+3log_bn)T_X，T_A和T_X分别表示一个AND逻辑门和一个XOR逻辑门的延迟。

所述计算单元包括EP1模块、第一运算模块、第二运算模块及加法器，所述输入端A输入所述EP1模块输入端，所述EP1模块输出端分别输入所述第一运算模块及第二运算模块的输入端，所述输入端B₀...B_P-2B_P-1依次输入所述第一运算模块及第二运算模块中的EP2单元的输入端，所述第一运算模块及第二运算模块的输出端分别输入加法器输入端，经所述加法器运算后输出，所述第二运算模块为多个依次平行设置。

所述第一运算模块包括EP2单元、PWM单元及重构单元，所述EP2单元输出端连接所述PWM单元输入端，所述PWM单元输出端连接所述重构单元输入端。

所述第二运算模块包括EP2单元、PWM单元、重构单元及移位单元，所述EP2单元输出端连接所述PWM单元输入端，所述PWM单元输出端连接所述重构单元输入端，所述重构单元输出端连接所述移位单元输入端。

图4示出了本发明提供的一种数位串行乘法器，该乘法器包括数位并行乘法器、累加单元及FPR单元，所述数位并行乘法器输出端连接所述累加单元输入端，所述累加单元输出端连接所述FPR单元输入端，经过计算处理后自所述FPR单元的输出端输出，所述累加单元由(n+d-1)个XOR逻辑门构成，用于计算当前部分积A_iB_i和暂存器<D>保存的值D的和；所述FPR单元实现计算输出C，其公式：C＝RD mod F(x)，其中，R是一个非零多项式，D是A和B乘积结果，mod F(x)是对所得结果进行约减即求模运算。

所述累加单元包括加法器、暂存器D及移位模块，所述加法器输出端连接所述暂存器D输入端，所述暂存器D输出端连接所述移位模块输入端，所述移位模块输出端连接所述加法器输入端。

图5示出了本发明提供的一种可扩展SPB/GPB的乘法器，所述乘法器包括数位并行乘法器、控制单元、两个操作数生成电路、暂存器A、暂存器B、数位对齐电路及FPR单元，所述暂存器A的输出端经一所述操作数生成电路连接所述数位并行乘法器输入端，所述暂存器B的输出端经一所述操作数生成电路连接所述数位并行乘法器输入端，所述控制单元的输出端分别连接两个所述操作数生成电路的输入端和所述数位对齐电路的输入端，所述数位并行乘法器输出端连接所述数位对齐电路的输入端，所述数位对齐电路的输出端连接所述FPR单元的输入端，经所述FPR单元运算输出C，其C公式：C＝RD mod F(x)，两个所述操作数生成电路的计算公式分别为：

{\overset{&OverBar;}{A}}_{i} = (s_{i, 00} A_{0} + s_{i, 01} A_{1} + s_{i, 02} A_{2}) + (s_{i, 10} A_{0} + s_{i, 11} A_{1} + s_{i, 12} A_{2}),

{\overset{&OverBar;}{B}}_{i} = (s_{i, 00} B_{0} + s_{i, 01} B_{1} + s_{i, 02} B_{2}) + (s_{i, 10} B_{0} + s_{i, 11} B_{1} + s_{i, 12} B_{2}),

D = D + (s_{i, 20} + s_{i, 21} x^{n} + s_{i, 22} x^{2 n} + s_{i, 23} x^{3 n} + s_{i, 24} x^{4 n}) {\overset{&OverBar;}{C}}_{i},

所述操作数生成电路包括两个控制器MUX及加法器，两个所述控制器的输出端分别输入所述加法器的输入端。

所述数位对齐电路包括控制总线、加法器及暂存器D，所述控制总线输出端连接所述加法器输入端，所述加法器输出端连接所述暂存器D输入端，所述暂存器D输入端连接所述加法器输入端，所述控制总线输入所述加法器线路上的位数为：(2m-1)-bit。

所述乘法器具有的数学背景

1.1 GF(2^m)上位移多项式基和一般化多项式基乘法运算

有序集合N＝{1，x，x²，…，x^m-1}被称作二位元扩域上的多项式基，其中x是不可约多项式F(x)的一个根。如果A有限域GF(2^m)上一元素，可以表示为A＝a₀+a₁x+…a_m-1x^m-1，其中对于所有i，有a_i∈{0，1}。让A、B和C为有限域GF(2^m)上三个元素，其中C＝AB mod F(x)。一般地，乘积C运算分成两步骤：(1)最大度为2M-2的小学乘法运算D＝AB；(2)多项式降阶运算C＝D modF(x)。对于有限域GF(2^m)上可变基底表示，一般化多项式基定义如下：

定义1.让R为一个非零多项式，集合N＝{1，x，x²，…，x^m-1}为有限域GF(2^m)上多项式基。有序集合NR＝{R，Rx，Rx²，…，Rx^m-1}被称作限域GF(2^m)上一般化多项式基。

利用一般化多项式基，有限域GF(2^m)上一元素可以表示成A和这种映射是双向的。很明显，如果R＝x^-v，其中v为一个正整数，则一般化多项式基变成位移多项式基。因此，位移多项式基是一般化多项式基的一种特例。

对于有限域GF(2^m)上，用一般化多项式基表示的任意两个元素和和的一般化多项式基乘积可以如下直接得到：

C＝RAB mod F(x) (1)

公式(1)中一般化多项式基乘法运算可以分成两步骤进行描述，如下：

步骤1：小学乘法运算

T＝AB＝t₀+t₁x+…+t_2m-2x^2m-2 (2)

其中

t_{i} = \underset{\underset{0 \leq i, k \leq m - 1}{j + k = i}}{Σ} a_{j} b_{k} .

步骤2：最终多项式约减(Final Polynomial Reduction，FPR)

C＝TR mod F(x) (3)

利用上述两步骤，对三项多项式和少数五项多项式，有效的位并行一般化多项式基乘法器已经在其他文献中提过。文献[7]第一次提出针对三项多项式x^m+xⁿ+1位移多项式基乘法器，其中R＝x^-n。文献[11]和[27]，针对II型五项多项式F(x)＝x^m+x^k+1+x^k+x^k-1+1，提出低空间复杂度的位移多项式基乘法器，其中R＝x^-k。文献[12]，针对C1型五项多项式(x^m+x^m-1+x^k+x+1)和C2型五项多项式(x^m+x^m-k+xⁿ+x^k+1)，提出比针对所有五项多项式的位移多项式基乘法器更低的面积复杂度的一般化多项式基乘法器，其中R分别是R＝x^m-k+x^m-1-k+1和R＝x^m-n+x^m-k-n+1。考虑到要提出的乘法器结构，我们只讨论移多项式基/一般化多项式基乘法器的FPR步骤。三项多项式和少数五项多项式的FPR步骤的分析如下：

1)三项多项式：步骤1中的中间乘积T可以重新写成

T＝T₀+T₁x^v+T₂x^m+v (4)

其中

T_{0} = Σ_{i = 0}^{v - 1} t_{i} x^{i}, T_{1} = Σ_{i = 0}^{m - 1} t_{v + i} x^{i}, T_{2} = Σ_{i = 0}^{m - 2 - v} t_{m + v + i} x^{i} .

步骤2中，公式(3)所给的乘积C可以如下表示：

C＝(T₀+T₁x^v+T₂x^m+v)mod F(x) (5)

假设有限域是有三项多项式F(x)＝x^m+xⁿ+1生成，并且若v＝n，公式(5)

中乘积

C = x^{- v} T \mod F (x) = Σ_{i = 0}^{m - 1} c_{i} x^{i}

可以表示如下

C＝(T₀+T₁+T₂xⁿ)+(T₂+T₀x^m-n)＝D₀+D₁ (6)

其中D₀＝T₀+T₁+T₂xⁿ，D₁＝T₂+T₀x^m-n。

D₀和D₁也可以表示成

D_{0} = Σ_{i = 0}^{n - 1} t_{i} x^{i} + Σ_{i = 0}^{m - 1} t_{n + i} x^{i} + Σ_{i = 0}^{m - n - 2} t_{m + n + i} x^{n + i}

和值得注意的是D₁并不需要任何硬件资源，但计算D₀需要(m-1)个XOR逻辑门和T_X逻辑门延迟。计算D₀和D₁的和需要(m-1)个XOR逻辑门和T_X逻辑门延迟。因此对于三项多项式，FPR步骤需要(2m-2)个XOR逻辑门和2T_X逻辑门延迟。

表1.三项多项式和一些五项多项式的FPR步骤的复杂度

2)II型五项多项式：选择v＝k，II型五项多项式F(x)＝x^m+x^k+1+x^k+x^k-1+1的FPR步骤可以如下表示：

C＝T₁+T₀(x^-1+1+x+x^m-k)+

T₂(1+x^k-1+x^k+x^k+1)mod F(x) (7)

＝(x^-1+1+x)(T₀+T₂x^k)+T₁+T₂+T₀x^m-kmod F(x)

＝D₀+D₁

其中

D₀＝(x^-1+1+x)(T₀+T₂x^k)+T₀x^-1

\begin{matrix} D_{1} = T_{1} + T_{2} + T_{0} x^{m - k} + t_{0} x^{- 1} \mod F (x) \\ = Σ_{i = 0}^{m - 1} t_{k + i} x^{i} + Σ_{i = 0}^{m - k - 2} t_{m + k + i} x^{i} + \\ Σ_{i = 0}^{k - 1} t_{i} x^{m - k + i} + t_{0} (x^{k - 2} + x^{k} + x^{m - 1}) \end{matrix}

计算公式(7)中D₀需要(2m-6)个XOR逻辑门和2T_X逻辑门延迟；计算D₁需要m个XOR逻辑门和2T_X逻辑门延迟。D₀和D₁的和需要(m+1)个XOR逻辑门和T_X逻辑门延迟。因此，II型五项多项式的FPR步骤需要(4m-5)个XOR逻辑门和3T_X逻辑门延迟。

3)C1型五项多项式：对此多项式，我们用一般化多项式基进行表示。让R＝x^m-k+x^m-1-k+1＝1+x^m-k-1(1+x)。C1 x型五项多项式F(x)＝x^m+x^m-1+x^k+x+1可以重新写成：

x^kR＝1+x (8)

x^m+kR＝x^m(1+x)＝1+x+x^k (9)

因此，乘积C＝TR mod F(x)可以表示成：

C＝RT₀+x^kRT₁+x^m+kRT₂mod F(x)

＝(1+x^m-k-1(1+x))T₀+(1+x)T₁+(1+x+x^k)T₂mod F(x) (10)

＝(1+x)(T₁+T₂+x^m-k-1T₀)+(T₀+x^kT₂)mod F(x)

＝D₀+D₁

其中

D₀＝(1+x)(T₁+T₂+x^m-k-1T₀)+t_m+k-1x^m

D₁＝(T₀+x^kT₂)+t_m+k-1x^mmod F(x)

值得注意的是

T_{1} + T_{2} + x^{m - k - 1} T_{0} = Σ_{i = 0}^{m - 1} t_{k + i} x^{i} + Σ_{i = 0}^{m - k - 2} t_{m + k + i} x^{i} + Σ_{i = 0}^{k - 1} t_{i} x^{m - k - 1 + i}

和因此，计算D₀需要(2m-2)个XOR逻辑门和2T_X逻辑门延迟；计算D₀需要3个XOR逻辑门和T_X逻辑门延迟。D₀和D₁的和需要m个XOR逻辑门和T_X逻辑门延迟。因此，C1型五项多项式的FPR步骤需要(3m+1)个XOR逻辑门和3T_X逻辑门延迟。

4)C2型五项多项式：让R＝x^-nR′，其中R′＝1+x。若k＜n，C2型五项多项式F(x)＝1+x^k+xⁿ+x^m-k+x^m可以表示成：

F(x)＝R′+xⁿ+R′x^m-k (11)

乘积C＝TR mod F(x)可以表示成：

C = x^{- n} R^{'} {\tilde{T}}_{0} + R^{'} {\tilde{T}}_{1} + x^{m - k} R^{'} {\tilde{T}}_{2} \mod F (x)

其中

{\tilde{T}}_{0} = Σ_{i = 0}^{n - 1} t_{i} x^{i}, {\tilde{T}}_{1} = Σ_{i = 0}^{m - k - 1} t_{n + i} x^{i}, {\tilde{T}}_{2} = Σ_{i = 0}^{m + k - n - 2} t_{m - k + n + i} x^{i} .

根据公式(11)，我们可以得到：

x^{- n} R^{'} {\tilde{T}}_{0} = {\tilde{T}}_{0} + x^{m - k - n} R^{'} {\tilde{T}}_{0}

x^{m - k} R^{'} {\tilde{T}}_{2} = R^{'} {\tilde{T}}_{2} + x^{n} {\tilde{T}}_{2}

因此，乘积C可以重新表示成：

C = {\tilde{T}}_{0} + x^{n} {\tilde{T}}_{2} + R^{'} (x^{m - k - n} {\tilde{T}}_{0} + {\tilde{T}}_{1} + {\tilde{T}}_{2}) \mod F (x) - - - (12)

由于的长度为(m+k-1)位，计算D₀mod F(x)需要(4k-4)个XOR逻辑门和T_X逻辑门延迟；计算需要(m+k-1)个XOR逻辑门和2T_X逻辑门延迟；计算R′D₁需要(m-2k)个XOR逻辑门和T_X逻辑门延迟。D₀和R′D₁的和需要m个XOR逻辑门和T_X逻辑门延迟。因此，C2型五项多项式的FPR步骤需要(3m+3k-5)个XOR逻辑门和4T_X逻辑门延迟。

表1终结了三项多项式和三种五项多项式的FPR单元的复杂度。我们可以发现C1型和C2型五项多项式的空间复杂度比II型五项多项式低。

1.2回顾KA的多路分割法

KA的2路分割法是使用一半长度的3个子乘积替代原始小学乘法运算。

例如，让和是度为M多项式，其中A₀，A₁，B₀和B₁是四个度为的多项式。A和B的乘积可以表示成：

\begin{matrix} AB = A_{0} B_{0} + [(A_{0} + A_{1}) (B_{0} + B_{1}) + \\ A_{0} B_{0} + A_{1} B_{1}] x^{\frac{m}{2}} + A_{1} B_{1} x^{m} \end{matrix} .

基于KA方法，乘法运算可以分成如下三个步骤。

1)生成评价点(Evaluation Point Generation，EPG)：多项式A＝(A₀，A₁)被分割成评价点向量EPG(A)＝(A₀，A₀+A₁，A₁)。类似地，多项式B＝(B₀，B₁)被分割成EPG(B)＝(B₀，B₀+B₁，B₁)。

2)配对点乘法运算(Point-Wise Multiplication，PWM)：PWM阶段是将EPG(A)和EPG(B)进行配对相乘。PWM是在生成评价点后产生三个乘法：

D₀＝A₀B₀，D₁＝(A₀+A₁)(B₀+B₁)和D₂＝A₁B₁。因此，我们可以定义出：

D＝PWM(EPG(A)，EPG(B))＝(D₀，D₁，D₂) (14)

3)重构(Reconstruction，R)：利用配对点乘法运算结果构造出所需的乘法结果，如下：

C＝(C₀，C₁，C₂)＝R(D)＝(D₀，D₀+D₁+D₂，D₂) (15)

以递归的方式使用此方法，每个多项式都转换成3个度只有原先一般的多项式。这种分解算法最终将每个多项式分解到只有一位。图1显示了基于递归KA算法的乘法运算的架构。这种KA乘法器的复杂度为

为了减少PWM的子乘法数量，我们给出如下定义：

D_i＝A_iB_i (16)

D_ij＝(A_i+A_j)(B_i+B_j) (17)

我们可以使用3路KA方法计算一对三项多项式乘积。A和B可以表示成

A＝A₀+A₁x^m/3+A₂x^2m/3和B＝B₀+B₁x^m/3+B₂x^2m/3，其中每个A_i和B_i是位的多项式。A和B的乘积可以表示成：

C＝AB＝C₀+C₁x^m/3+C₂x^2m/3+C₃x^m+C₄x^4m/3 (18)

其中

D₀＝A₀B₀，D₁＝A₁B₁，D₂＝A₂B₂

D₀₁＝(A₀+A₁)(B₀+B₁)

D₁₂＝(A₁+A₂)(B₁+B₂)

D₀₂＝(A₀+A₂)(B₀+B₂) 。

C₀＝D₀，C₁＝D₀₁+D₀+D₁

C₂＝D₀₂+D₀+D₁+D₂

C₃＝D₁₂+D₁+D₂，C₄＝D₂

根据上述例子，3路KA方法需要6个乘法生成部分积和13个加法。根据上述，一般化的多路KA分解方法，其部分积的个数可以从下面所属得到。

引理1假设A和B都是m多项式。基于n路KA算法，在第一个步骤中，A和B被分解成子多项式。在此情况下，计算C＝AB，我们需要个部分积。

二、提出(b，2)路KA分解方法

在本节，我们扩展KA分解方法俩设计所需的数位串行乘法运算结构。p和q为两个正整数，满足n＝pq条件。利用y＝x^q，多项式A＝a₀+a₁x+…a_n-1x^n-1可以表示成：

A = Σ_{j = 0}^{p - 1} Σ_{i = 0}^{q - 1} a_{i, j} x^{i} y^{j} - - - (19)

其中a_i，j＝a_i+qj。

下面，我们呈现一种(4，2)路KA分解方法，并将其泛化成(b，2)路KA分解方法，其中b是一个正整数。

2.1(4，2)路KA分解方法

让A＝A₀+A₁x+A₂y+A₃xy和B＝B₀+B₁x分别是四项和两项多项式。A和B的乘积可以表示成：

AB＝(A₀+A₁x+A₂y+A₃xy)(B₀+B₁x)

＝A₀B₀+(A₁B₀+A₀B₁)x+A₂B₀y+ (20)

(A₃B₀+A₂B₁)xy+A₁B₁x²+A₃B₁x²y

其可以简化成：

AB＝A₀B₀+(A₀₁B₀₁+A₀B₀+A₁B₁)x+A₂B₀y+

(A₂₃B₀₁+A₂B₀+A₃B₁)xy+A₁B₁x²+A₃B₁x²y (21)

＝C₀+C₁x+C₂y+C₃xy+C₄x²+C₅x²y

从公式(21)，我们可以看出，尽管公式(20)中原始乘法有8个，被分割后只需要6个，即为(C₀，C₁，C₂，C₃，C₄，C₅)。以递归方式使用这6个乘法，可以构造出一种次二次乘法运算架构。运用这种递归方法，每个乘法可以转换成6个乘积运算，并且A和B的度分别约减到四分之一和一般。如果这种分解方法最终将多项式分解到一位操作系数，A和B的度满足下面引理。引理2基于递归方式的(4，2)路KA分解方法，公式(21)分解到一位操作系数，如果多项式A是n＝4ⁱ位且i＞1，多项式B需要是位。图2显示了利用(4，2)路KA分解方法设计的乘法器上层结构。其中涉及三个步骤(EPG，PWM和R)。我们根据这三个步骤来估算图1b给出的结构复杂度：

1)生成评价点(EPG)：在本步骤，n位多项式A被分解成四部分，即

A＝A₀+A₁x+A₂y+A₃xy，其中每个A_i(0≤i≤3)都是位多项式。基于公式(21)，我们需要生成评价点集合{A₀，A₀₁，A₂，A₂₃，A₁，A₃}。为了计算A₀₁＝A₀+A₁和A₂₃＝A₂+A₃，需要个XOR逻辑门。多项式B被分解成两部分，即B＝B₀+B₁x，其中每个B_i(0≤i≤1)都是位多项式。我们用这些多项式生成评价点集合{B₀，B₀₁，B₁}。计算B₀₁＝B₀+B₁需要个XOR逻辑门。

2)配对点乘法运算(PWM)：公式(21)显示了每次递归分解操作都会产生6个子乘法，可以表示成

P₀＝A₀B₀，P₁＝A₀₁B₀₁，P₂＝A₂B₀，

。

P₃＝A₂₃B₀₁，P₄＝A₁B₁，P₅＝A₃B₁

若和分别表示对子乘法运算所需的位加法数量和位乘法数量。PWM单元的空间复杂度为

3)重构(R)：每个子乘法运算都是两个多项式A_i和B_j的乘积，其度分别为和因此每个子乘积结果P_i是位。根据公式(21)乘法运算，重构单元需要4个加法来计算

(P₀，P₀+P₁+P₄，P₂，P₃+P₂+P₅，P₄，P₅)。因此在重构我们需要个XOR逻辑门。

根据上面分析，利用(4，2)路KA分解方法提出的次二次乘法运算具有如下空间复杂度：

S_{&CircleTimes;} (n) = 6 S_{&CircleTimes;} (\frac{n}{4}) - - - (22)

S_{&CirclePlus;} (n) = 6 S_{&CirclePlus;} (\frac{n}{4}) + 1.5 n + 2.5 n^{\log_{4} 2} - 4 - - - (23)

为了估算时间复杂度，让D(n)表示n位多项式乘法运算的延迟。表示加法延迟。因此，PWM步骤需要EPG步骤需要延迟，R步骤需要延迟。我们所以可以得到如下的递归关系：

D (n) = D (\frac{n}{4}) + {3 D}_{&CirclePlus;} - - - (24)

引理3假设b和i都是两个正整数，满足n＝bⁱ。递归关系且R(1)＝e的结果为R(n)＝d(1og_bn)+e，其中d和e都是整型常数。

引理4假设a，i，b为三个整数，其中a≠b且n＝bⁱ，递归关系

R (n) = aR (\frac{n}{b}) + dn + {fn}^{δ} + h

且R(1)＝e的结果为

\begin{matrix} R (n) = (e + \frac{db}{a - b} + \frac{{fb}^{δ}}{a - b^{δ}} + \frac{b}{a - 1}) n^{\log_{b} a_} \\ \frac{db}{a - b} n - \frac{{fb}^{δ}}{a - b^{δ}} n^{δ} - \frac{h}{a - 1} \end{matrix} . - - - (25)

我们利用引理3和4解决递归关系公式(22)、(23)和(24)。利用初始值和D(1)＝T_A，(4，2)路KA分解方法的时间和空间复杂度如下：

S_{&CircleTimes;} (n) = n^{\log_{4} 6}

S_{&CirclePlus;} (n) = \frac{69}{20} n^{\log_{4} 6} - 3 n - \frac{5}{4} n^{\log_{4} 2} + \frac{4}{5}

D(n)＝T_A+3(1og₄n)T_X。

2.2泛化的(b，2)路KA分解方法

根据(4，2)路KA分解方法，如果2|b且n＝bⁱ，基于(b，2)路KA分解方法的乘法运算需要乘积来实现。当多项式A是n＝bⁱ位，根据引理2，多项式B需要位，以使生成的多项式能被分解到一位操作参数。(b，2)路KA分解方法的复杂度通过下面得到：

S_{&CircleTimes;} (n) = \frac{3 b}{2} S_{&CircleTimes;} (\frac{n}{b})

S_{&CirclePlus;} (n) = \frac{3 b}{2} S_{&CirclePlus;} (\frac{n}{b}) + 1.5 n + \frac{b + 1}{2} n^{\log_{b} 2} - b

D (n) = D (\frac{n}{b}) + 3 D_{&CirclePlus;} .

三、基于(b，2)路KA分解方法的数位串行乘法器架构

基于所提的(b，2)路KA分解方法，我们构造出位多项式B和n(＝bⁱ)为多项式A的乘法器，如图2所示的一层KA分解。因此，选择数位长度为度为(n-1)的多项式B可以表示成数位形式B＝B₀+B₁x^d+…+B_p-1x^d(p-1)，其中

p = \frac{n}{n^{\log_{b} 2}} = n^{1 - \log_{b} 2} = n^{\log_{b} \frac{b}{2}}

且

B_{i} = Σ_{j = 0}^{d - 1} b_{id + j} x^{j}

是B的第(i+1)个分段。同时多项式A如公式(19)给出。SPB/GPB乘积C＝RAB mod F(x)可以表示成：

C＝R(AB₀+AB₁x^d+…+AB_p-1x^d(p-1))mod F(x) (27)

根据公式(27)，如图4显示了所提的数位串行乘法器架构，用于计算C＝RAB mod F(x)，其中使用所提的(b，2)路KA分解方法计算每个部分积AB_i和最高有效位优先乘法运算流程。

在图4中，所提的数位串行乘法器包括3个单元，分别是(b，2)路KA乘法器，累加单元和FPR单元。(b，2)路KA乘法器是利用(b，2)路KA分解方法以迭代方式构造。累加单元由(n+d-1)个XOR逻辑门构成，用于计算当前部分积A_iB_i和暂存器<D>保存的值D的和。FPR单元实现C＝RD mod F(x)，表1显示了FPR的复杂度。根据公式(27)，所提的数位串行乘法器需要时钟周期用于完成A和B的乘法运算，其中每个时钟周期的间隔为T＝T_A+(1+31og_bn)T_X，T_A和T_X分别表示一个AND逻辑门和一个XOR逻辑门的延迟。

四、提出利用多路KA方法和(b，2)路KA分解方法的可扩展乘法架构

4.1利用并行的(b，2)路KA方法的子多项式乘法器

A和B都是度为n的多项式。基于所提出的(b，2)路KA分解方法，多项式B可以表示成数位形式B＝B₀+B₁x^d+…+B_p-1x^d(p-1)，其中且A和B的乘法运算可以重新写成

C＝AB₀+AB₁x^d+…+AB_p-1x^d(p-1)

。

＝C₀+C₁x^d+…+C_p-1x^d(p-1)

每个部分积C_i＝AB_i通过(b，2)路KA分解方法实现，可以表示成C_i＝R(PWM(EP1(A)，EP2(B_i)))。对于并行计算所有的部分积C_i(0≤i≤p-1)，子多项式乘法器需要p个KA乘法器和一个累加树。每个KA乘法器计算C_i＝R(PWM(EP1(A)，EP2(B_i)))，累加树计算p个KA乘法运算结果的累加和，即C＝C₀+C₁x^d+…+C_p-1x^d(p-1)。由于所有的KA乘法器拥有相同的EP1(A)单元，因此子多项式乘法器可以修改成如图3所示。

根据图3，利用下面引理，我们可以估算出所提子多项式乘法器的复杂度。

引理5假设图3所示的子多项式乘法器，通过(4，2)路KA分解方法实现，则需要个AND逻辑门，

(\frac{49}{20} n^{\log_{4} 12} - {3 n}^{\log_{4} 8} + n^{\log_{4} 6} - \frac{1}{5} n + 1)

个XOR逻辑门，其关键路径延迟为

({3 \log}_{4} (n) + \log_{2} (n^{\log_{4} 2})) T_{X} + T_{A} .

类似的，若使用(6，2)路KA分解方法，所提的子多项式乘法器的复杂度如下面引理。

引理6若n＝6ⁱ，假设图3所示的子多项式乘法器，通过(6，2)路KA分解方法实现，则需要个AND逻辑门，

(\frac{9}{4} n^{\log_{6} 27} - {3 n}^{\log_{6} 18} + n^{\log_{6} 9} - \frac{1}{4} n^{\log_{6} 3} - n + 1)

个XOR逻辑门，其关键路径延迟为

4.2可扩展架构

有限域上GF(2^m)元素

A = {\overset{&OverBar;}{a}}_{0} + {\overset{&OverBar;}{a}}_{1} x + . . . + {\overset{&OverBar;}{a}}_{m - 1} x^{m - 1}

可以表示成A＝A₀+A₁xⁿ+A₂x²ⁿ，其中A_i＝a_i，0+a_i，1x+…+a_i，n-1x^n-1(0≤i≤2)且F(x)表示度为m的不可约多项式，用于生成有限域GF(2^m)。对于A，B∈GF(2^m)，SPB/GPB的乘积C＝RAB mod F(x)可以给出如下：

C＝R[A₀B₀+(A₀B₀+A₁B₁+A₀₁B₀₁)xⁿ+

(A₀B₀+A₁B₁+A₂B₂+A₀₂B₀₂)x²ⁿ+

(A₁B₁+A₂B₂+A₁₂B₁₂)x³ⁿ+A₂B₂x⁴ⁿ]mod F(x) (28)

＝R[A₀B₀(1+xⁿ+x¹ⁿ)+A₁B₁(xⁿ+x¹ⁿ+x³ⁿ)+

A₂B₂(x²ⁿ+x³ⁿ+x⁴ⁿ)+A₃B₃xⁿ+A₄B₄x²ⁿ+A₅B₅x³ⁿ]mod F(x)

其中

A₃＝A₀+A₁，A₄＝A₀+A₂，A₅＝A₁+A₂，

B₃＝B₀+B₁，B₄＝B₀+B₂，B₅＝B₁+B₂。

从公式(28)，我们看出乘积C包括6个部分积C₀＝A₀B₀、C₁＝A₁B₁、C₂＝A₂B₂、C₃＝A₃B₃、C₄＝A₄B₄和C₅＝A₅B₅。为了从操作参数A和B生成被分解得到的参数A_i和B_i(i＝0，1，...，5)，我们需要如下关系：

A_i＝(s_i，00A₀+s_i，01A₁+s_i，02A₂)+ (29)

(s_i，10A₀+s_i，11A₁+s_i，12A₂)

B_i＝(s_i，00B₀+s_i，01B₁+s_i，02B₂)+ (30)

(s_i，10B₀+s_i，11B₁+s_i，12B₂)

其中S_i，0＝(s_i，00，s_i，01，s_i，02)和S_i，1＝(s_i，10，s_i，11，s_i，12)用于确定被分解得到的参数A_i和B_i。每个部分积C_i＝A_iB_i需要与一个稀疏多项式P_i(i＝0，1，...，5)相乘，该稀疏多项式分别为P₀＝1+xⁿ+x²ⁿ、P₁＝xⁿ+x²ⁿ+x³ⁿ、P₂＝x²ⁿ+x³ⁿ+x⁴ⁿ、P₃＝xⁿP₄＝x²ⁿ和P₅＝x³ⁿ。我们可以定义P_i＝s_i，20+s_i，21xⁿ+s_i，22x²ⁿ+s_i，23x³ⁿ+s_i，24x⁴ⁿ来生成稀疏多项式。表2给出了这三个控制向量，以确定每个时钟周期中部分积。部分积按照C₀，C₁，C₂，C₃，C₄，C₅顺序计算，并与对应的稀疏多项式相乘，再经过约减，相加在一起。

根据表2，算法1显示了基于3路KA方法，可扩展SPB/GPB乘法器运算过程。该算法中步骤4和5实现分解子多项式和。步骤6实现子多项式数位乘法运算。步骤7实现位对齐操作。最后的步骤9实现最后的多项式约减。图5给出了所提的SPB/GPB乘法器，是依据算法1在可扩展硬件上实现，其中不同的操作参数通过控制向量S₀、S₁和S₂生成。所提的乘法架构包括一个控制单元、3个暂存器(A，B，D暂存器)、两个参数分解生成单元、一个子多项式乘法器(如图3)、一个位对齐电路和一个FPR单元。

表2 三个控制表

(a)S₀控制表

(b)S₁控制表

(c)S₂控制表

根据公式(28)，KA的3路分解涉及6个部分积C_i(0≤i≤5)，所有的部分积需要不同的输入参数。三个控制向量S₀、S₁和S₂存储在控制单元的可循环移位暂存器上。在每个部分积计算的迭代中，参数分解生成单元产生对应输入多项式，用于子多项式乘法器的输入，从而得到部分积的结果。为对齐单元利用控制向量S₂选择6个稀疏多项式中的一个，用于部分积的重构。例如，表2中，我们选择三个控制向量S_3，0＝(100)，S₃₁＝(010)，S_3，2＝(01000)实现公式(28)中的(A₀+A₁)(B₀+B₁)xⁿ的计算，如图3中用红线标注的路径。类似的，我们用三个控制向量S_3，0＝(001)，S₃₁＝(000)，S_3，2＝(00111)计算

A_{2} B_{2} (x^{2 n} + x^{3 n} + x^{4 n}) .

提出了能够有效实现数位串行乘运算的(b，2)路KA分解方法。分析可得到，(4，2)路和(6，2)路KA分解方法的空间复杂度分别是O(n^1.29)和O(n^1.23)。利用所提的KA分解方法，给出了一种具有次二次空间复杂度的数位串行乘法器。此外利用多路KA方法和(b，2)路KA分解方法，一种新的可扩展SPB/GPB乘法器被提出。所提的乘法器，相比较现有结构，具有更小面积和更低的功耗。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数位并行乘法器，其特征在于，该数位并行乘法器包括输入端A、输入端B₀...B_P-2B_P-1、输出端C及计算单元，所述输入端A及输入端B₀...B_P-2B_P-1分别输入计算单元，经过计算处理后自所述计算单元的输出端C输出，所述计算单元输出的计算公式：

2.根据权利要求1所述的数位并行乘法器，其特征在于，所述计算单元需要时钟周期用于完成A和B的乘法运算，其中每个时钟周期的间隔为T＝T_A+(1+3log_bn)T_X，T_A和T_X分别表示一个AND逻辑门和一个XOR逻辑门的延迟。

3.根据权利要求1或2所述的数位并行乘法器，其特征在于，所述计算单元包括EP1模块、第一运算模块、第二运算模块及加法器，所述输入端A输入所述EP1模块输入端，所述EP1模块输出端分别输入所述第一运算模块及第二运算模块的输入端，所述输入端B₀...B_P-2B_P-1依次输入所述第一运算模块及第二运算模块中的EP2单元的输入端，所述第一运算模块及第二运算模块的输出端分别输入加法器输入端，经所述加法器运算后输出，所述第二运算模块为多个依次平行设置。

4.根据权利要求3所述的数位并行乘法器，其特征在于，所述第一运算模块包括EP2单元、PWM单元及重构单元，所述EP2单元输出端连接所述PWM单元输入端，所述PWM单元输出端连接所述重构单元输入端。

5.根据权利要求4所述的数位并行乘法器，其特征在于，所述第二运算模块包括EP2单元、PWM单元、重构单元及移位单元，所述EP2单元输出端连接所述PWM单元输入端，所述PWM单元输出端连接所述重构单元输入端，所述重构单元输出端连接所述移位单元输入端。

6.一种数位串行乘法器，其特征在于，该乘法器包括权利要求1-3任一项所述的数位并行乘法器、累加单元及FPR单元，所述数位并行乘法器输出端连接所述累加单元输入端，所述累加单元输出端连接所述FPR单元输入端，经过计算处理后自所述FPR单元的输出端输出，所述累加单元由(n+d-1)个XOR逻辑门构成，用于计算当前部分积A_iB_i和暂存器<D>保存的值D的和；所述FPR单元实现计算输出C，其公式：C＝RD mod F(x)，其中，R是一个非零多项式，D是A和B乘积结果，mod F(x)是对所得结果进行约减即求模运算。

7.根据权利要求6所述的数位串行乘法器，其特征在于，所述累加单元包括加法器、暂存器D及移位模块，所述加法器输出端连接所述暂存器D输入端，所述暂存器D输出端连接所述移位模块输入端，所述移位模块输出端连接所述加法器输入端。

8.一种可扩展SPB/GPB的乘法器，其特征在于，所述乘法器包括权利要求1-5任一项所述的数位并行乘法器、控制单元、两个操作数生成电路、暂存器A、暂存器B、数位对齐电路及FPR单元，所述暂存器A的输出端经一所述操作数生成电路连接所述数位并行乘法器输入端，所述暂存器B的输出端经一所述操作数生成电路连接所述数位并行乘法器输入端，所述控制单元的输出端分别连接两个所述操作数生成电路的输入端和所述数位对齐电路的输入端，所述数位并行乘法器输出端连接所述数位对齐电路的输入端，所述数位对齐电路的输出端连接所述FPR单元的输入端，经所述FPR单元运算输出C，其C公式：C＝RD mod F(x)，两个所述操作数生成电路的计算公式分别为：

{\overset{&OverBar;}{A}}_{i} = (s_{i, 00} A_{0} + s_{i, 01} A_{1} + s_{i, 02} A_{2}) + (s_{i, 10} A_{0} + s_{i, 11} A_{1} + s_{i, 12} A_{2}),

{\overset{&OverBar;}{B}}_{i} = (s_{i, 00} B_{0} + s_{i, 01} B_{1} + s_{i, 02} B_{2}) + (s_{i, 10} B_{0} + s_{i, 11} B_{1} + s_{i, 12} B_{2}),

D = D + (s_{i, 20} + s_{i, 21} x^{n} + s_{i, 22} x^{2 n} + s_{i, 23} x^{3 n} + s_{i, 24} x^{4 n}) {\overset{&OverBar;}{C}}_{i},

9.根据权利要求8所述的数位串行乘法器，其特征在于，所述操作数生成电路包括两个控制器MUX及加法器，两个所述控制器的输出端分别输入所述加法器的输入端。

10.根据权利要求9所述的数位串行乘法器，其特征在于，所述数位对齐电路包括控制总线、加法器及暂存器D，所述控制总线输出端连接所述加法器输入端，所述加法器输出端连接所述暂存器D输入端，所述暂存器D输入端连接所述加法器输入端，所述控制总线输入所述加法器线路上的位数为：(2m-1)-bit。