CN103942027B

CN103942027B - 一种可重构的快速并行乘法器

Info

Publication number: CN103942027B
Application number: CN201410152508.3A
Authority: CN
Inventors: 潘正祥; 杨春生; 李瑶; 李秋莹; 闫立军; 蔡正富
Original assignee: Airmate Electrical Shenzhen Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Airmate Electrical Shenzhen Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2017-06-06
Anticipated expiration: 2034-04-16
Also published as: CN103942027A

Abstract

本发明提出了一种可重构的快速并行乘法器，包括控制单元、暂存器、可重构分解操作数生成电路、次级字多项式乘法器、次数调整电路和最终多项式重构FPR电路；其中，控制单元输出控制向量S0、S1、S2；控制向量S0、S1用于控制两个可重构分解操作数生成电路以相同的方法分别产生和；所述次级字多项式乘法器用于产生；控制向量S2用于所述控制次数调整电路产生D存储于暂存器中，i=0,1,…,5；所述FPR电路用于产生最终结果C。本发明提出的可扩展乘法器与现存结构相比显著地减少了计算时间，面积，面积时间延迟积（ADP）和功耗。分析结果为在资源受限的嵌入式系统和智能手机上实行配对算法和椭圆曲线数字签名算法提供了一个有价值的参考。

Description

一种可重构的快速并行乘法器

技术领域

本发明属于加密处理领域，涉及一种可重构的快速并行乘法器。

背景技术

有限域乘法被广泛应用于加密算法与差错控制编码。对于加密应用来说，例如Diffie-Hellman键交换、数字签名，ECC和配对加密都要使用有限域乘法。SPB(ShiftedPolynomial Basis，移位多项式基底)在有限域乘法实现上具有一些优点。对于配对加密应用，基于ECC算法的Weil和Tate配对需要大量有限域上的扩展运算。例如，通过计算定义在复合域GF(2^4×1223)上的一个质数椭圆曲线的Tate配对可以达到128位对称密钥的安全性。因此，它对于在大型有限域上的有效硬件乘法设计是很重要的，特别对在资源受限的环境下实现是一个很大的挑战。

现有的几种GF(2^m)域上的乘法结构中，位并行脉动结构计算速度快并且适用于高能量的执行。然而，这种结构需要O(m²)的空间复杂度和通常O(m)的时间延迟。位并行阵列乘法器需要O(m)的空间复杂度，但是需要更长的计算时间，这使其不适合应用在高速的应用上。

发明内容

为了解决现有技术中的问题，本发明提出了一种基于SPB的可重构的快速并行乘法器，该乘法器可以通过重构以达到所需的时间复杂度和空间复杂度之间的平衡，具有模块化、合格规则的特点，并适用于特大规模集成电路(very large scale integration，VLSI)的实施。

本发明通过如下技术方案实现：

一种可重构的快速并行乘法器，其用于实现GF(2^m)域上的乘法，GF(2^m)域上的A和B具有A＝A₀+A₁xⁿ+A₂x²ⁿ的形式，其中，则GF(2^m)域上乘积C可表示为C＝x^-vAB mod F(x)(F(x)为m次不可约多项式)；所述乘法器包括控制单元、暂存器、可重构分解操作数生成电路、次级字多项式乘法器、次数调整电路和最终多项式重构FPR电路；其中，控制单元输出控制向量S0、S1、S2，S_i，0＝(s_i，00，s_i，01，s_i，02)，S_i，1＝(s_i，10，s_i，11，s_i，12)，S_i，2＝(s_i，20，s_i，21，s_i，22，s_i，23，s_i，24)；控制向量S0、S1用于控制两个可重构分解操作数生成电路以相同的方法分别产生A_i和B_i，所述次级字多项式乘法器用于产生C_i＝A_iB_i；控制向量S2用于所述控制次数调整电路和产生D＝D+(s_i，20+s_i，21xⁿ+s_i，22x²ⁿ+s_i，23x³ⁿ+s_i，24x⁴ⁿ)C_i存储于暂存器中，i＝0,1,…,5；所述FPR电路用于产生最终结果C＝Dx^-v mod F(x)。

所述控制向量S0、S1为：

所述控制向量S2为：

本发明的有益效果是：本发明提出的可重构的快速并行乘法器与现存结构相比显著地减少了计算时间，面积，ADP和功耗。分析结果为在资源受限的嵌入式系统和智能手机上实行配对算法和椭圆曲线数字签名算法提供了一个有价值的参考。

附图说明

图1是Karatsuba算法的功能模块结构示意图；

图2是基于(4，2)路KA分解的乘法器的高能级结构示意图；

图3是本发明的数位串行次二元乘法结构示意图；

图4是本发明的基于控制字的分解操作数生成电路图；

图5是本发明的次数调整电路图；

图6(a)是使用(b，2)路BKA分解的次级字乘法器结构图；

图6(b)是共享EP的次级字乘法器结构图；

图7是本发明的可重构的快速并行乘法器结构图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

利用附图1所示的多路KA(Karatsuba Algorithm)和(b，2)路BKA(BivariateKaratsuba Algorithm)算法来获得GF(2^m)上的一个可重构乘法器，其中域上元素由SPB(Shifted polynomial basis)来表示。设域上元素可以表示为A＝A₀+A₁xⁿ+A₂x²ⁿ，其中

且A_i＝a_i，0+a_i，1x+…a_i，n-1x^n-4，0≤1≤2，，0≤j≤n-1。设GF(2^m)由m次不可约多项式F(x)构成。对于A，B∈GF(2^m)，乘积C＝x^-vABmodF(x)可以表示为：

其中A₃＝A₀+A₁，A₄＝A₀+A₂，A₅＝A₁+A₂，

B₅＝B₀+B₁，B₄＝B₀+B₂，B₆＝B₁+B₂

由公式(2)可以得到乘积C包括六个部分积：

C₀＝A₀B₀，C₁＝A₁B₁，C₂＝A₂B₂，C₅＝A₅B₅，C₄＝A₄B₄和C6＝A₆B₆。

根据下面的关系从A和B中产生分解操作数A_i和B_i，i＝0，1，...，5：

A_i＝(s_i，00A₀+s_i，01A₁+s_i，02A₂)+(s_i，10A₀+s_i，11A₁+s_i，12A₂) (2)

B_i＝(s_i，00B₀+s_i，01B₁+s_i，02B₂)+(s_i，10B₀+s_i，11B₁+s_i，12B₂) (3)

其中S_i，0＝(s_i，00，s_i，01，s_i，02)和S_i，1＝(s_i，10，s_i，11，s_i，12)被用于决定分解操作数A_i和B_i。每个部分积C_i＝A_iB_i都需要和一个稀疏多项式P_ii＝0，1，...，5，P₀＝1+xⁿ+x²ⁿ，P₁＝xⁿ+x²ⁿ+x³ⁿ，P₂＝x²ⁿ+x³ⁿ+x⁴ⁿ，P₃＝xⁿ，P₄＝x²ⁿ和P₅＝x^sn。这些部分积按C₀，C₁，C₂，C₃，C₄，C₅的顺序计算，然后与对应的稀疏多项式相乘，并相加求和来得到经过缩减的中间结果。

可重构操作数产生电路利用表1(a)和(b)中的六对控制字(S_i，0，S_i，1)从每个操作数中产生六个分解操作数。设A_i表示在第i次循环时从A中获得的第i个分解操作数。根据公式(2)，使用S_i，0＝(s_i，00，s_i，01，s_i，02)和S_i，1＝(s_i，10，s_i，11，s_i，12)(分别是表1(a)和(b)中的第i行向量)来产生分解数A_i。如表1(a)和表1(b)所示，每行最多有一个“1”，因此，操作数产生电路可以简化如附图4所示。在附图4中，MUX1和MUX2作为控制字，分别使用S_i，0和S_i，1从0，A₀，A₁，A₂中选择一个，将两个选中的A的次级字相加来得到分解操作数A_i。例如，在表1中，在1＝3时S_i，0和S_i，1分别是(100)和(010)。在MUX1中装入S_i，0＝(100)来产生输出A₀，在MUX2中装入S_i，1＝(010)来产生输出A₁。将两个选中的次级字相加来得到分解操作数A₀+A₁。因为A和B的分解操作数结构相同，利用附图4也可以产生分解操作数B_i。

表1控制字表

如表1所示，使用本发明的可重构的快速并行乘法器和控制向量S_1，0＝(s_1，00s_1， ₀₁s_1，02)，S_1，1＝(s_1，10，s_1，11，s_1，12)和S_i，2＝(s_i，20，s_i，22，s_i，24)可以计算出公式(1)中的六个部分积C_i，其中控制向量和部分积中的i是相对应的。这一对控制字S_i，0和S_i，1用于产生六对与A和B相对应的分解操作数。使用公式(1)中每组稀疏多项式权值的表达式来产生用于计算部分积C_iP_i的控制字S_i，2。例如，为计算公式(1)中的第二组，C₁(＝A₁B₁)与多项式权值P₁-xⁿ+x²ⁿ+x^Rn。如表1所示，对于三个控制向量S_i，0，S_i，1，S_i，2，为方便计算公式(1)中的第二组，在三个子表的第二行，分别有(010)，(000)和(01110)。在控制单元，表1的三个子表中的控制字存放在一个循环移位寄存器中，用于在连续的时钟周期里按顺序产生公式(1)中不同组。

设两个n次多项式A和B通过如附图4所示的操作数生成电路分解，基于本发明所提出的(b，2)路BKA分解法，如附图2所示，用位的多项式B和n(＝b^t)位的多项式A来构造一个单独的BKA乘法器。因此，假设选择的数位大小为n-1次的多项式B表示为：B＝B₀+B₁x^d+…+B_p-1x^d(p-1)，其中其中是B中的第i+1位，多项式A的二元多项式表示由公式(5)给出。于是AB的乘积可以表示为：

A＝a₀+a₁x+…+a_n-1x^n-1＝A(x，x^q) (6)

附图3显示了用于计算公式(4)的数位串行乘法器结构，使用(b,2)路BKA分解和MSD先行乘法演算法来计算每个部分积AB_i。附图3所示的数位串行乘法器包括三个单元(BKA乘法器，基底转换和累加)。如附图2所示，BKA乘法器单元是迭代使用(b，2)路BKA分解构造而成的。基底转换部分是基于公式(6)来将基底从二元多项式转换成原始多项式表示。累加单元由(n+d-1)个XOR门组成，用于计算当前部分积A_iB_i与以前累加结果C的和并将结果存储成寄存器<C>中。根据公式(4)，本发明提出的快速并行乘法器需要个时钟周期来完成计算AB，其中每个周期持续T＝T_A+(1+3)log_b nT_x，T_A和T_X分别是一个AND门与一个XOR门最坏的传播延迟。

表2 n＝bⁱ时的多种次级二元乘法器与教科书乘法器的性能比较

注：d是选中数位大小

表2列出了本发明的乘法器和现有的次级二元乘法器的性能比较。为公平比较，表2没有包含不可约多项式降阶模块的复杂度。两个传统的次级二元乘法器分别基于二路和三路KA分解来得到位并行乘法器，但是它们不适合执行位串行乘法结构。本发明的(4，2)路和(6，2)路BKA分解适合执行位串行乘法器。如表2所示，本发明的使用(4，2)路和(6，2)路的乘法器分别需要和的空间复杂度，而使用二路分解法的传统次级二元乘法器需要的空间复杂度。另外，如表2所示，本发明的乘法器的时间复杂度明显小于当数位大小为时需要的教科书数位串行乘法器。

如附图2所示的BKA乘法器，每个通过BKA分解构造的部分积C₁＝A₁B₁可以由C₁＝R(PWM(EP1(A₁)，EP₂(B₁)))计算得到。为并行地计算所有的部分积C₁，其中0≤1≤p-1，附图6(a)所示的次级字乘法器包括p个BKA乘法器和一个加法树。在附图6(a)中，每个BKA乘法器由C₁＝R(PWM(EP1(A₁)，EP2(B₁)))计算，而加法树计算p个BKA乘法结果的和，即C＝C₀+C₁x^d+…+C_p-1x^d(F-1)。由于所有BKA乘法器都有相同的EP1(A)电路组件，次级字多项式乘法器可以重新组合如附图6(b)所示。

现在，通过下面的方法来评估附图6(b)中的次级字多项式乘法器的复杂度。

假设附图6(b)中的次级字多项式乘法器由(4，2)路BKA分解实现，其中n＝4ⁱ，它需要个AND门和个XOR门，关键路径所需延迟为

证明：基于(4，2)路分解的BKA乘法器的复杂度，包括个AND门和个XOR门，需要延迟为T_A+3log₄nT_X。由附图2可知EP1单元包括个XOR门。根据附图6，次级字多项式乘法器需要个BKA乘法器和一个加法树。每个BKA乘法器产生位的乘积字。因此，加法树使用门来计算p个BKA乘法器相加的结果，需要log₂p T_x的延迟。次级字多项式乘法器总共需要个AND门和个XOR门，需要T_A+(3log₄n+log₂p)T_xr的延迟。使用这些值可以总结这个乘法器需要个AND门，个XOR门及的延迟。

相似地，根据下面的方法可以评估基于(6，2)路BKA分解的次级字多项式乘法器。

假设附图6(b)中的次级字多项式乘法器由(6，2)路BKA分解实现，其中n＝6ⁱ。它需要个AND门和个XOR门，关键路径所需延迟为

部分积C_i次级字多项式乘法器由附图6(b)得到,将C_i分成两部分并表示为：C_i是一个(2n-1)位的多项式，而和都是至多n位的多项式。根据表1(c)所示的控制向量，对于每个部分积结果C_i的次数调整操作可以表示为：

其中

的值和之前累加结果D相加，加法输出存放在暂存器<D>中。如附图5所示，使用附图5所示的电路来实现3路KA的次数调整操作。

下面的方法可以用来评估附图5中次数调整电路的时间和空间复杂度。假设使用d路KA算法来实现次数调整操作，附图5中的次数调整电路需要的空间复杂度为(2m-1)个AND门和个XOR门，关键路径延迟为2T_X+T_A。

经过次数调整操作，得到的结果D是一个(2m-1)位的多项式。D中最重要的(m-1)组通过利用不可约多项式F(x)的次数少于m的多项式递归地减少来获得C＝x^-vDmodF(x)，其中C＝x^-vDmodF(x)可以表示为：C＝[I_n×m|Q][d₀，d₁，...，d_2m-2]^T，其中Q是与不可约多项式F(x)相关的降阶矩阵。对于任意一般降阶多项式F(x)，最终降阶多项式(FPR)模块需要H(Q)个XOR门，关键路径延迟总计为log₂(θ+1)T_x，其中H(Q)是降阶矩阵Q的汉明权值，θ是矩阵Q的列向量中的最大汉明权值。对于NIST推荐的椭圆曲线的不可约多项式，表3列出了它们在FPR模块的复杂度。

定义D＝(D₁+D₀ ^x-v+D₂x^m)，其中假设有限域由不可约多项式P(x)＝x^m+xⁿ+1，当v＝n时，乘积可以得到：

C＝(D₀+D₁+D₂)+D₂xⁿ+D₀x^m-n (7)

其中

因此，三项多项式的FPR需要2m-2个XOR门和2T_X的延迟。

算法1用于实现本发明的可重构快速并行乘法器。

在这个算法中，第四步和第五步分别用于分解次级字多项式和第六步是利用附图6(b)所示的次级字乘法电路来执行次级字乘法；第七步是利用附图5所示的次数调整电路来实现次数调整的操作；最后第九步进行最终多项式重构FPR。附图7是根据算法1的使用可重构硬件实行的快速并行乘法器，其中不同的操作数由控制向量S0、S1、S2实现的不同的配置来生成。本发明提出的快速并行乘法器包括控制单元、暂存器、可重构分解操作数生成电路(如附图4所示)，次级字多项式乘法器(如附图6b所示)，次数调整电路(如附图5所示)和FPR电路。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种可重构的快速并行乘法器，其用于实现GF(2^m)域上的乘法，GF(2^m)域上的A和B具有A＝A₀+A₁xⁿ+A₂x²ⁿ的形式，其中，则GF(2^m)域上乘积C可表示为C＝x^-v AB mod F(x)，F(x)为m次不可约多项式，其特征在于：所述乘法器包括控制单元、暂存器、可重构分解操作数生成电路、次级字多项式乘法器、次数调整电路和最终多项式重构FPR电路；其中，控制单元输出控制向量S0、S1、S2，S_i，0＝(s_i，00，s_i，01，s_i，02)，S_i，1＝(s_i，10，s_i，11，s_i，22)，S_i，2＝(s_i，20，s_i，21，s_i，22，s_i，23，s_i，24)；控制向量S0、S1用于控制两个可重构分解操作数生成电路以相同的方法分别产生A₁和B₁，A_i＝(s_i，00A₀+s_i，01A₁+s_si，02A₂)+(s_i，10A₀+s_i，11A₁+s_i，12A₂)；所述次级字多项式乘法器用于产生C₁＝A₁B₁；控制向量S2用于控制所述次数调整电路产生D＝D+(s_i，20+s_i，21xⁿ+s_i，22x²ⁿ+s_i，23x³ⁿ+s_i，24x⁴ⁿ)C_i存储于暂存器中，

i＝0,1,…,5；所述FPR电路用于产生最终结果C＝Dx^-vmod F(x)。

2.根据权利要求1所述的快速并行乘法器，其特征在于：所述控制向量S0、S1为：

3.根据权利要求1所述的快速并行乘法器，其特征在于：所述控制向量S2为：

4.根据权利要求1所述的快速并行乘法器，其特征在于：所述快速并行乘法器应用于加密处理单元中。