CN1605059A

CN1605059A - 蒙哥马利乘法器中的流水线内核

Info

Publication number: CN1605059A
Application number: CN02824949.6A
Authority: CN
Inventors: G·T·M·胡伯特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Vlsi Technology Co ltd
Priority date: 2001-12-14
Filing date: 2002-12-05
Publication date: 2005-04-06
Anticipated expiration: 2022-12-05
Also published as: DE60208926D1; AU2002353282A8; WO2003052584A3; JP2005513532A; US7395295B2; JP4619657B2; DE60208926T2; EP1459167B1; EP1459167A2; CN100382011C; ATE316668T1; US20050033790A1; AU2002353282A1; WO2003052584A2

Abstract

一种安排用于以素数为模将第一长整数实体与第二长整数实体进行相乘的乘法器设备。特别地，它包括一种流水线乘法器内核，同时以蒙哥马利方式执行全部的乘法运算。

Description

蒙哥马利乘法器中的流水线内核

本发明涉及一种乘法器设备，用于以素数为模将第一长整数实体乘以第二长整数实体，该乘法器设备包括一种流水线乘法器内核，并被安排用于以蒙哥马利方式执行所有的乘法运算。

发明背景

以素数为模的长整数乘法是一种基本和重复的运算，这些运算用于所谓的公共密钥系统和各种其它的应用。为了有效地使用这种应用，应该将乘法的执行时间最小化。因此，本发明尤其涉及一种如权利要求1前序部分所述的设备。为了上述目的，已经提出了通过使用一种乘法和归约运算(reduction operation)的组合的各种方法和设备。特别是，所述结果的最高有效部分实际上常常用来作用于所述归约。然而，本发明已经意识到这种最高有效部分的展开将实质上延迟所有的运算，尤其当现有硬件应该以最大可能高的工作周期使用时，这时由于这种乘法的次序必须以一种连续的方式来执行。

发明概述

因此，本发明的一个目的是提供一种如前序部分所述的乘法器设备，其中与现有技术相比，使用实际结果的最低有效部分作用于归约，同时提高实际使用所述硬件的时间片，以便能够处理这种基本的和长序列的乘法。

因此，现在根据本发明的其中一个方面，其特征在于根据权利要求1的特征部分。实际上，根据本发明的组合使其更容易保持流水线被充满，因此在叠加运算中缩短平均计算时间。所述乘法器设备可用于GF(p)以及GF(2ⁿ)中的运算，其中p为素数。

在独立权利要求中阐述了本发明的其它有利方面，这些权利要求限定了本发明的基本组件应用的有利扩展，或者应用领域。

附图说明

参照公开的优选实施例，并特别参照所附附图，在下文将更加详细地讨论本发明的这些和其它方面以及优点，附图示出了：

图1，流水线乘法器的方框图；

图2，用于长整数乘法X*Y+W的方框图；

图3，用于长整数乘法X_i.Y+W的方框图；

图4，用于伽罗瓦域(Galois field)GF(2ⁿ)的流水线乘法器；

图5，无进位传送加法器的结构；

图6，图示中间进位和求和量的图。

优选实施例详述

1.流水线乘法器

流水线乘法器被设计成在每个时钟周期接收两个将被相乘的新数字。两者的乘积在许多级中计算，并当所有级已经运算过时准备好该乘积。例如，对于32*32位的乘法，级数可以是17(16个用于乘法和1个用于最后的加法)。每个时钟周期，计算下一个乘积，但是仅在17个时钟周期后准备好结果。所以在同一个时钟周期至多同时处理17个乘积。

对于一种高效的流水线乘法器，已经设计出长整数计算从而保持流水线被充满。一种必须避免的情况是新的计算依靠正在进行的计算结果。在这种情况必须插入等待状态。这就是为什么设计蒙哥马利乘法器用于不同于类似RSA计算的椭圆曲线计算的原因。

紧接着所述乘法，乘法器执行两步加法P＝X.Y+A+B。其中一步加法两个长整数乘法所必需的，其中该乘法必须被分成许多基本的32*32位乘法。

流水线乘法器能够被设计用于不同的位数，例如8*8或16*16。

2.蒙哥马利乘法

蒙哥马利乘法计算乘积P＝x.y.R^-1 mod p。这里，x和y是要被相乘的输入，p是乘法的模数。此外，R＝2ⁿ，其中n是该系统的位数，例如1024用于类似RSA的系统，和160用于椭圆曲线。作为一个实例选择一种具有17级的32*32位乘法器。

3.利用基数B的蒙哥马利乘法

这种方法适用于很大的值N_w以及RSA。

·B＝2³²，假定32位的处理器字长。

·R＝B^Nw，N_w是长整数的32位字的数目。

·a[i]是数字a的第i个32位字。

·T[0]是临时变量T的最低有效32位部分。

预先存储的常量：

·m’＝-(p^-1)mod B(32位宽)

·素数p

输入：a mod p，b mod p

输出：蒙哥马利乘积：MonPro(a，b)＝a.b.R^-1mod p

运算如下：

T＝0

For i＝0 to N_w-1

{T＝T+a[i].b； //Nw乘法

Ui＝T[0].m’mod B； //1乘法

T＝(T+Ui.p)/B //Nw乘法

}

if T＞p then T＝T-p

4.对于512位操作数的计算

在我们的实例中，a和b由16个32位字组成。首先从i＝0开始计算T＝T+a[i].b。

第一个计算在时隙0开始，最后一个计算在时隙15开始。在时隙16增加一个等待周期。

在时隙17准备好第一个结果T[0]。然后我们从这个时隙开始计算乘积Ui＝T[0].m’，该乘积在时隙34输出。

下一系列的计算是T＝(T+Ui.p)/B，其在时隙34开始，并在时隙49结束。其第一个结果在时隙51输出，但因为该结果总是为零所以将其丢弃。第二个结果是在时隙52输出。

从时隙52开始，重新开始循环。当前一轮结果准备好时，它立刻使用前一轮的结果。

这里有16轮，所以时隙总数是16*52＝832。

在时隙848准备好完全的结果。

5.对于1024位操作数的计算

首先从i＝0开始计算T＝T+a[i].b。

我们以计算最初的17个乘积开始。

第一个结果T[0]在时隙17准备好。在该时隙中我们计算乘积Ui＝T[0].m’，该乘积在时隙34输出.从时隙18直到32，我们计算T＝T+a[i].b的剩余的乘积。

下一系列计算(T+Ui.p)/B从时隙34开始并在时隙65结束。当在时隙66开始新一轮计算时，准备好第一个结果。

这里有32轮，所以时隙总数是32*66＝2112。

在时隙2128准备好完全的结果。

6.对于2048位操作数的计算

首先从i＝0开始计算T＝T+a’[i].b’。

我们以计算最初的17个乘积开始。

第一个结果T[0]在时隙17准备好。在该时隙中我们计算乘积Ui＝T[0].m’，该乘积在时隙34输出。从时隙18到N_w，我们计算剩余的乘积。

下一系列计算(T+Ui.p)/B从时隙N_w开始，并在时隙2N_w-1结束。

当在时隙2N_w开始新一轮计算时，准备好第一个结果。

这里有N_w轮，所以时隙总数是N_w.(2N_w+1)。

在时隙N_w.(2N_w+1)+17(对于2048位，等于8273)准备好完全的结果。

7.利用基数R的蒙哥马利乘法

该算法适用于小值N_w，也适用于椭圆曲线。

·B＝2³²(假定为32位的处理器字长)

·R＝B^Nw(N_w是长整数的32位字的数目)

预先存储的常量：

·m’＝-(p^-1)mod R(m’是N_w32位宽)

·素数p

输入：a mod p，b mod p

输出：MonPro(a，b)＝a.b.R^-1 mod p

T＝a.b

U＝T.m’mod R

T’＝T+U.p

T＝T/R

if T＞p then T＝T-p

对于GF(2ⁿ)上的系统，所有加法都是按模2计算。这里，m’是多项式B＝α³²倒数。

8.计算方法

首先，计算T＝a.b的完全积。这需要N_w ²次乘法。然后准备好T的第一个结果，因此我们在此之后就可以立刻开始。对于乘积T.m′，我们仅需要计算比R更小的乘积。

·在时隙17准备好乘积T[0].T[0]*(m[0]..m[N_w-1])的计算在时隙N_w ²开始，并需要N_w次乘法。

·在时隙17+N_w准备好乘积T[1].T[1]*(m[0]..m[N_w-2])的计算在时隙N_w ²+N_w开始，并需要Nw-1次乘法。

·在时隙17+2N_w准备好乘积T[2].T[2]*(m[0]..m[N_w-3])的计算在时隙N_w ²+2N_w-1开始，并需要N_w-2次乘法，等等。

·在时隙17+j.N_w准备好乘积T[j].T[j]*(m[0]..m[N_w-j-1])的计算在时隙N_w ²+(2N_w-j+1).j/2开始，并需要N_w-j次乘法，等等。

·在时隙17+(N_w-1).N_w准备好乘积T[N_w-1].T[N_w-1]*m[0]的计算在时隙N_w ²+(N_w+2).(N_w-1)/2开始，并需要1次乘法。

可以证明，对于N_w≥5，在新的乘积T[j]*m[0]开始之前，总是准备好乘积T[j]。因此，不需要等待周期。

·U[0]在时隙N_w ²+17准备好。从该时刻起，计算乘积U.p。

·最后一次乘法在时隙N_w ²+(N_w+2).(N_w-1)/2+1开始。对于N_w＝5，最后一次乘法在在时隙40开始，并且U[0]在时隙42开始。因此这里就要求有两个等待周期。对于更大的值N_w，就不需要有等待周期。

·U.p的计算占用N_w ²个时隙。

·对于N_w＞5，时隙总数是2.N_w ²+(N_w+2).(N_w-1)/2+1

·对于N_w＝5，时隙总数是67个时隙。

·完全的结果在时隙2.N_w ²+(N_w+2).(N_w-1)/2+18准备好。

9.改进的布斯(BOOTH)算法

改进的布斯算法设计为用被乘数的两位来作部分乘法。这使部分乘法的数量减少了一半。

首先重新编码乘数Y，其中y’_i可以具有值-2，-1，0，+1和+2(有符号数字符号)。

y’_i＝-2.y_i+1+y_i+y_i-1(仅为i的偶数值定义)

Y＝y′₃₀.2³⁰+y′₂₈.2²⁸+…+y′0.2⁰

y_i’＝-2.y_i+1+y_i+y_i-1；

y_n＝0

p = Σ_{i = 1, odd}^{n - 1} {y^{'}}_{i} . 2^{i} . X = Σ_{i = 1, odd}^{n - 1} (- 2 y_{i + 1} + y_{i} + y_{i - 1}) . 2^{i} . X =

= - X Σ_{i = 1, odd}^{n - 1} y_{i + 1} . 2^{i + 1} + X . Σ_{i = 1, odd}^{n - 1} y_{i} . 2^{i} + 2 X . Σ_{i = 1, odd}^{n - 1} y_{i - 1} . 2^{i - 1} =

= - X Σ_{i = 2, even}^{n} y_{i} . 2^{i} + X . Σ_{i = 1, odd}^{n - 1} y_{i} . 2^{i} + 2 X . Σ_{i = 0}^{n - 2} y_{i} . 2^{i} =

= - X Σ_{i = 0, even}^{n - 2} y_{i} . 2^{i} + X . Σ_{i = 1, odd}^{n - 1} y_{i} . 2^{i} + 2 X . Σ_{i = 0}^{n - 2} y_{i} . 2^{i} + y_{0} . X =

= X . Σ_{i = 0}^{n - 1} y_{i} . 2^{i} + y_{0} . X = X . Y + y_{0} . X

为了得到正确的结果，我们必须从乘积减去y₀.X。

10.并行进行的减法

X＝x₃₁.2³¹+x₃₀.2³⁰+…x₁.2¹+x₀.2⁰

Y＝y₃₁.2³¹+y₃₀.2³⁰+…y₁.2¹+y₀.2⁰

W＝w₃₁.2³¹+w₃₀.2³⁰+…w₁.2¹+w₀.2⁰

Z＝X.Y+W。

在这方面，图1是流水线乘法器实施例的方框图。这里，具有星号的圆圈执行乘法运算，但具有加号标记的圆圈执行加法运算，诸如一种包括进位存储运算的加法运算。各种方框将临时保留那里指示的量。为了更清楚起见，各种相互连接示出了一道将被传送的位的位排列顺序。在右侧，一列方框用于引入必要的修正项。

左侧部分计算Z＝X.Y+W+y₀.X。这个末项是该算法的人为项，右侧部分与其它计算并行减去该末项。这就是本发明。

以下实施例公开了乘法是怎样建立的，但这种实现可以在细节上有所偏差。

在第一个时隙计算Z₀＝X.Y(1∶0)+W₀并将它存储在寄存器Z₀中。°X被传送到第二X寄存器，且Y(31∶2)被传送到第二Y寄存器。

在第二个时隙计算Z1＝X.Y(3∶2)+Z₀并将它存储在寄存器Z₁中。此外，X被传送到第三X寄存器，且Y(31∶2)被传送到第三Y寄存器。

而且计算-y₀*X(1∶0)，并把它加到Z(1∶0)，等等。

在第16个时隙计算Z₁₅＝X.Y(31∶30)+Z₁₅，并将它存储在寄存器Z₁₅中。

此外还计算-y₀*X(31∶30)，并把它加到Z(31∶30)。

现在，Z₁₅包含了64位。

在最后的时隙(#17)，较高的32位传送到Z₁₆和Z₁₅，并且两个修正位被加到前面的Z₁₆值，然后输出。

当进行长整数乘法时，与X0，X1，…，XN_w-1组合输入N_w次Yi。在长整数计算开始时，Z₁₆设置为0。仅当X₀.Y_i+W达到输出Z时，然后才加Z₁₆＝0。

11.对于GF(2ⁿ)的蒙哥马利乘法

椭圆曲线计算也可以通过域GF(2ⁿ)来定义。

在这个域中所有的加法(这里通过“+”来表示)都是模2计算(异或)。

这个域中的多项式具有最多n-1次的幂。

所以当n＝32时，X和Y的多项式定义如下(所有系数都是0或1)：

X＝x₃₁.α³¹+x₃₀.α³⁰+…x₁.α¹+x₀.α⁰

Y＝y₃₁.α³¹+y₃₀.α³⁰+…y₁.α¹+y₀.α⁰

还有一个不可约的多项式p，被定义为：

p＝p_n.αⁿ+p_n-1.α^n-1+…p₁.α¹+P₀α⁰。

乘积P＝X.Y mod p通过以下式子来计算：

(x_n-1.α^n-1+x_n-2.α^n-2+…x₁.c¹+x₀.α⁰).(y_n-1.α^n-1+y_n-2.α^n-2+…y₁.α¹+y₀.α⁰)mod p。

然后由多项式p来除乘积X.Y，余数就是结果。余数的幂总是小于p的幂。

X，Y和p都可用长整数来表示。

约化乘积的计算可以通过正常乘积计算来进行，并具有这样的修改，内部加法利用模2计算进行。然后除了模2加以及保留余数以外，照常规进行除法。

然而，还能够更快地进行蒙哥马利乘法。

12.蒙哥马利乘法

蒙哥马利乘法把许多素数(不可约多项式)加到(部分)乘积中，这样乘积被一个诸如α³²或α¹⁶⁰的适当因数R可除尽。对于给定多项式的二进制表示，可以考虑用2³²或2¹⁶⁰代替。这里，m’定义为m’＝p^-1 modR，其中p^-1定义为p.p^-1 mod R＝1

现在，通过以下修改能够应用相同的算法：

·乘法器中的加法运算是模2的。

·省略最后的减法。

这种方案的进一步细节。除了上述的以外，各种其它细节、实施例、和说明将在下面作为补充的形式提出。

13.长整数乘法器和加法器

定义：

·X＝x_Nw-1.B^Nw-1+…+x₂.B²+x₁.B¹+x₀.B⁰

·Y＝y_Nw-1.B^Nw-1+…+y₂.B²+y₁.B¹+y₀.B⁰

·P_i＝p_iNw.B^Nw-1+…+p_i2.B²+p_i1.B¹+p_i0.B⁰

·P＝p_2Nw-1.B^2Nw-1+…+p₂.B²+p₁.B¹+p₀.B⁰

·B＝2³²

·m＝N_w-1

长整数乘法涉及很多两个32位字的乘法。该实施例使用一种流水线32位乘法器(参见图1和4)，这种乘法器在每个时隙接收三个新32位操作数(X*Y+Z)。这种乘法器速度非常快。然而，这种乘法的输出仅在17个时隙后准备好。所以最多可以有17个乘法同时计算。可是，当想要与正在进行相乘的结果相乘的时候，必须等待将该结果被准备好。这样能够引入等待周期，因此它将降低性能。

Z＝X.Y+W

Z＝X.{Y₀.B⁰+Y₁.B¹+..Y_mB^m}+W

Z，X和W具有大小为N_w-1的32位字。Y_i具有32位宽。

W＝W₀.B⁰+W₁.B¹+..W_mB^m}

中间结果W_i＝W_i1.B⁰+W_i2.B¹+..W_i.m+1B^m

·计算P₀＝X.Y₀+W。结果以P₀＝W₀.B+Z₀分解。

·计算P₁＝X.Y₁+W₀。结果以P₁＝W₁.B+Z₁分解。

·计算P₂＝X.Y₂+W₁。结果以P₂＝W₂.B+Z₂分解。

·…

·计算P_m＝X.Y_m+W_m-1。

·对于j≥m，Z_j＝P_m.j。

所以我们需要一个函数来计算P_i＝X.Y_i+W_i。

在这方面，图2是一个用于计算(X*Y+W)的方案的方框图。

P_i＝X.Y_i+W

这个计算是前述计算的一部分。

X和W具有大小为m＝(N_w-1)的32位字。

Y_i具有32位宽。

·计算S₁＝x₀.y_i+w₀。S₁以Z₁.B+P₀分解。

·计算S₂＝x₁.y_i+w₁+Z₁。S₂以Z₂.B+P₁分解，等等。

·计算S_m＝X_m.y_i+W_m+Z_m-1。S_m以P_m+1.B+P_m分解。

在图3中已经示出了相关的实施例，该图是一个用于根据(X*Y+W)执行长整数乘法的方案的方框图。

利用图1的流水线乘法器计算S＝x.y+w+z，已在上文讨论。

·为了在GF(2ⁿ)上计算，加法是模2计算的。所以没有进位。

14.流水线乘法器

X＝x₃₁.2³¹+x₃₀.2³⁰+…x₁.2¹+x₀.2⁰

Y＝y₃₁.2³¹+y₃₀.2³⁰+…y₁.2¹+y₀.2⁰

W＝w₃₁.2³¹+w₃₀.2³⁰+…w₁.2¹+w₀.2⁰

Z＝X.Y+W.

左侧部分计算Z＝X.Y+W+y₀.X。末项是所用算法的人为项。右侧部分减去所述末项。

下面给出了一种想法，即乘法是怎样建立的，但实现可能在细节上有所偏差。

在第一个时隙中，计算Z₀＝X.Y(1∶0)+W₀并把它存储在寄存器Z₀中。X被传送到第二X寄存器并且Y(31∶2)被传送到第二Y寄存器。

在第二个时隙中，计算Z₁＝X.Y(3∶2)+Z₀并把它存储在寄存器Z₁中。X被传送到第三X寄存器并且Y(31∶2)被传送到第三Y寄存器。

此外，计算-y₀*X(1∶0)并把它加到Z(1∶0)。

…

在第16个时隙中，计算Z₁₅＝X.Y(31∶30)+Z₁₅并把它存储在寄存器Z₁₅中。

此外，计算-y₀*X(31∶30)并把它加到Z(31∶30)。现在Z₁₅包括64位。

在最后一个时隙(#17)中，较高的32位被传送到Z₁₆和Z₁₅中，并且两个修正位被加到输出的Z₁₆的前值。

进行如在第13段中描述的长整数乘法，然后与X₀，X₁，...，X_NW-1组合输入N_w次Y_i。当X₀.Y_i+W达到输出Z时，那么就代替加Z₁₆的内容而不加任何内容。Z₁₆具有第13段中Z_i的函数：从一个乘法传送到下一个乘法的那个部分。

15.改进的布斯算法

首先重新编码乘法器Y，其中y’_i仅可以具有值-2，-1，0，+1和+2(有符号的数字表示)。

y′_i＝-2.y_i+1+y_i+y_i-1(仅对i的偶数值定义)

Y＝y′₃₀.2³⁰+y′₂₈.2²⁸+…+y′₀.2⁰

例如当y＝29_dec＝011101_bin时，那么y′＝(2 11)sd＝2.2⁴-1.2²+1＝29_dec，其中 1表示-1。

使用的这些公式是在以前段落中公开的有关改进布斯算法的内容(第9段)。

为了得到正确的结果，我们必须从乘积y₀.X中减去。

用2相乘就是左移1位被乘数。

部分乘积被以一种2根值表示法编码，其中每个乘积都可以具有值-1，0或+1。

现在以16级来计算乘积。在每级中计算y′_i.X.2ⁱ的部分乘积，并把它相加到在前结果中，例如当x＝53_dec＝110101_bin和y＝29(y’＝(2 11)_sd)时，那么

对于32位操作数，要进行15个加法。在一个普通全加器中，这花费非常长的时间，因为进位必须波动通过。为了防止这种现象，我们将使用一种无进位传送加法器。在这方面，图5示例了一种无进位传送加法器的方案。

16.冗余二进制计数法

加法器的被加数和加数都使用一种冗余二进制计数法，这种方法也是一种有有符号数字表示法。具有一个固定根2和一个数字组{ 1，0，1}，其中 1表示-1。一个n位数字的冗余二进制整数Y具有值y_n-12^n-1+y_n-22^n-2+…+y₁.2¹+y₀.2⁰，其中y_i可以具有值-1，0或1。

在冗余二进制计数法中可以有多种方式表示一个整数，例如[0101]_SD2＝[011 1]_SD2＝[1 101]_SD2＝[1 11 1]_SD2＝[10 11]_SD2＝5_dec。只有‘0’具有唯一的表示：[00…0]。

从标准二进制计数法变换到冗余二进制计数法是简单的：两者都是一样的。

从冗余二进制计数法变换到标准二进制计数法通过以下减法来进行：X_bin＝X⁺-X^-，其中X+是通过用‘0’替代所有的‘ 1’而从X_sd2中得到的，X-是通过用‘0’替代所有的‘1’和用‘ 1’替代所有的‘1’而从X_sd2中得到的。

例如，当X＝[10 1 1]_SD2＝5_dec时，那么X⁺＝[1000]_bin＝8_dec和X^-＝[0011]_bin＝3_dec。

通过用‘ 1’替代所有的‘1’和用‘1’替代所有的‘ 1’来对一个变量求反。例如，当X＝[10 1 1]_SD2＝5_dec，那么-X＝[ 1011]_SD2＝-5_dec

我们将一个变量编码如下(参见表1)：

X	输出x⁺x^-	输入x⁺x^-
X	输出x⁺x^-	输入x⁺x^-	0	00	00
1	10	1x	0	00	00
1	10	1x	1	01	x1

表1对于GF(p)以冗余二进制计数法对X进行编码(x＝任意)。从来不使用组合11。

因此，当输入X并且X＝1时，比条件x⁺＝1充分。同样，当X＝ 1时，也比x^-＝1充分。

17.无进位传送加法器

所选择的表示法是，在下一个数字吸收可能的进位，并不影响下一个进位。因此，这种加法器的速度比32位全加器快得多。

至于32*32位乘法器，有16个加法(包括在前乘法的上面最高有效字)。然后仅在末端，所述冗余二进制计数法转换成标准二进制计数法。这种转换不是自由传送的。

加法以(在概念上)2步来进行。首先计算中间和s_i以及中间进位c_i。在下一步，两者都转换成最终和(sum_i)。该中间进位可以最可能取决于在前和当前的数字值，但不取决于再早一些的值。

c_i和s_i满足以下等式：2c_i+s_i＝x_i+y_i。而且c_i-1和s_i这样选择，使得两者既不是1也不是1。

在这方面，图6所示为生成中间进位和求和量的图。

和S_i＝c_i+s_i-1将不再生成一个新的进位：

·类型1，3，4和6：c_i-1+s_i＝c_i-1

·类型2a，5a：c_i-1≠ 1，也就是0或1，所以c_i-1+s_i是 1或0。

·类型2b，5b：c_i-1≠1，也就是0或 1，所以c_i-1+s_i是1或是0。

这通过以下实例说明：

X [10 10 100 1]_sd2＝87_des

Y [1 1100 11 1]_sd2＝101_des

---------+

S 0100 1110

C 1 100010 1

---------+

Sum 1 11000 100＝188_des

18.转换为标准二进制计数法

在最后一级，结果被转换成标准二进制计数法。X＝X⁺-X^-，其中X⁺由所有x_i ⁺构成，以及X^-由所有的x_i ^-构成。

因为x_i ⁺和x_i ^-决不会同时为1，所以我们不需要全减器。因此，我们尝试一种不同的方法。

我们将从右边到左边移去所有的 1。

当不从右边借位时：

·当下一个数字是‘1’时，那么就保存该数字并且没有到左边的借位。

·当下一个数字是‘0’时，那么就保存该数字并且没有到左边的借位。

·当下一个数字是‘ 1’时，那么就用‘1’替代该‘ 1’并且有到左边的一个借位。

当有来自右边的借位时：

·当下一个数字是‘1’时，那么就用‘0’替代该‘1’，并且没有到左边的借位。

·当下一个数字是‘0’时，那么就用‘1’替代该‘0’，并且有到左边的一个借位。

·当下一个数字是‘ 1’时，那么就用‘0’替代该‘ 1’并且有到左边的一个借位。

然而，当最左的数字是‘1’和最右的数字是‘ 1’时，并且它们之间的所有数字是‘0’时(10…0 1)，这将产生一个非常大的延迟。

为了减小该延迟，我们把32位分成8组，每组4位。

·当最左的非零数字是‘ 1’时，那么产生一个到下一个左边组的借位。

·当该组中有至少一个‘1’时，从右边组来的一个借位不传送到下一个组。

19.对于GF(2N)的乘法器逻辑

X＝x₃₁.α³¹+x₃₀.α³⁰+…x₁.α¹+x₀.α⁰

Y＝y₃₁.α³¹+y₃₀.α³⁰+…y₁.α¹+y₀.α⁰

W＝w₃₁.α³¹+w₃₀.α³⁰+…w₁.α¹+w₀.α⁰

对于这些向量的表示，在上述公式中可以看到用‘2’来代替‘α’。

Z＝X.YW。

Z = Σ_{i = 0}^{31} Σ_{j = 0}^{31} x_{i} . y_{j} α^{i + j}

Z_i＝(y_2iy_2i+1.α).X+Z_i

在GF(2ⁿ)中没有等式用于布斯编码。

在第一个时隙中(参见图4)，计算X.Y(1∶0)W并把它存储在寄存器Z₀中。X被传送到第二X寄存器以及Y(31∶2)被传送到第二Y寄存器(Y)。

在第二个时隙中，计算X.Y(3∶2)Z₀并把它存储在寄存器Z₀中。X被传送到第二X寄存器以及Y(31∶4)被传送到第三Y寄存器(Y)。

在第16个时隙中，计算Z₁₅＝X.Y(31∶30)Z₁₅并把它存储在寄存器Z₁₅中。

现在Z₁₅包括64位。

在最后一个时隙(#17)中，较高32位被传送到Z₁₆以及Z₁₅被加到输出的在前Z₁₆值。

进行如在第13段中描述的长整数乘法，那么与X₀，X₁，...，X_NW-1组合输入N_w次Y_i。当X₀.Y_iW达到输出Z时，那么代替加Z₁₆的内容而不加任何内容。Z₁₆具有第13段中Z_i的函数：从一个乘法传送到下一个乘法的那个部分。

特别是，图4示例了一种用于在GF2ⁿ中运算的流水线乘法器实施例的方案。

加法

加法是2变量的exor。没有进位。

编码

因为我们想与GF(p)的逻辑组合所述逻辑，所以我们将使用以下冗余编码。这里X＝x⁺^x^-，其中^表示一种逻辑“OR”功能。

X	输出x⁺x^-	输入x⁺x^-
X	输出x⁺x^-	输入x⁺x^-	0	00	0x
1	10	1x	0	00	0x
1	10	1x	1	10	X1

表2用于对GF(2ⁿ)以冗余二进制计数法编码X(x＝任意)

20.用于GF(p)和GF(2ⁿ)的逻辑

两种乘法器级都将使用以下结构z_j＝a_i.x_j-1b_i.x_j

GF(p)

GFp＝1

y′_i＝-2.y_i+1+y_i+y_i-1(仅用于奇数i，参见以下表3)

y_i+1	y_i	y_i-1	y′_i	a_i	b_i	sign_i
y_i+1	y_i	y_i-1	y′_i	a_i	b_i	sign_i	0	0	0	0	0	0	1
0	0	1	1	0	1	1	0	0	0	0	0	0	1
0	0	1	1	0	1	1	0	1	0	1	0	1	1
0	1	1	2	1	0	1	0	1	0	1	0	1	1
0	1	1	2	1	0	1	1	0	0	-2	1	0	0
1	0	1	-1	0	1	0	1	0	0	-2	1	0	0
1	0	1	-1	0	1	0	1	1	0	-1	0	1	0
1	1	1	0	0	0	0	1	1	0	-1	0	1	0

表3用于GF(p)的编码

GF(2ⁿ)

GFp＝0

a_i＝y_i-1

b_i＝y_i

z_j ⁺＝z_j＝a_i.x_j-1b_i.x_j

z_i ^-＝0

组合

b_i＝y_iGF_p.y_i-1

z_j ⁺＝(a_i.x_j-1b_i.x_j).y_i+1

{z_{j}}^{-} = (a_{i} . x_{j - 1} &CirclePlus; b_{i} . x_{j}) . \overset{&OverBar;}{y_{i + 1}} . GFp

21.无传送进位加法

类型	x_i	y_i	x_i-1	y_i-1	f₂	f₅	h	中间进位c_i	中间和s_i
类型	x_i	y_i	x_i-1	y_i-1	f₂	f₅	h	中间进位c_i	中间和s_i	1	1x	1x	xx	xx	0	0	x	10	00
2a	1x00	001x	x0x0	x0x0	11	00	11	10	01	1	1x	1x	xx	xx	0	0	x	10	00
2a	1x00	001x	x0x0	x0x0	11	00	11	10	01	2b	1x1x0000	00001x1x	x1xxx1xx	xxx1xxx1	1111	0000	0000	00	10
3	00	00	xx	xx	0	0	x	00	00	2b	1x1x0000	00001x1x	x1xxx1xx	xxx1xxx1	1111	0000	0000	00	10
3	00	00	xx	xx	0	0	x	00	00	4	1xx1	x11x	xxxx	xxxx	00	00	xx	00	00
5a	00x1	x100	x0x0	x0x0	00	11	11	00	01	4	1xx1	x11x	xxxx	xxxx	00	00	xx	00	00
5a	00x1	x100	x0x0	x0x0	00	11	11	00	01	5b	0000x1x1	x1x10000	x1xxx1xx	xxx1xxx1	0000	1111	0000	01	10
6	x1	x1	Xx	xx	0	0	x	01	00	5b	0000x1x1	x1x10000	x1xxx1xx	xxx1xxx1	0000	1111	0000	01	10

表4中间进位及和

表4与利用根据表1编码的图6类似。

h = \overset{&OverBar;}{x_{i - 1}} . \overset{&OverBar;}{y_{i - 1}^{-}}

s_i ⁺＝(f₂∧f₅). h

s_i ^-＝(f₂∧f₅).h

S_i＝c_i-1+s_i.

c_i-1 ⁺c_i-1 ^-	s_i ⁺s_i ^-	S_i ⁺S_i ^-
c_i-1 ⁺c_i-1 ^-	s_i ⁺s_i ^-	S_i ⁺S_i ^-	00	00	00
00	1x	10	00	00	00
00	1x	10	00	x1	01
1x	00	10	00	x1	01
1x	00	10	1x	1x	-
1x	x1	00	1x	1x	-
1x	x1	00	x1	00	01
x1	1x	00	x1	00	01
x1	1x	00	x1	X1	-

表5总和S_i

22.GF(2ⁿ)

S_i＝x_iy_i

看来如果我们取消GF(p)系统中的进位，根据GF(p)规则生成的S_i则产生正确的答案，S_i根据表2被编码。

组合逻辑

h = \overset{&OverBar;}{x_{i - 1}} . \overset{&OverBar;}{y_{i - 1}}

c_i ^-＝(x_i.y_i∧f₅. h).GFp

s_i ⁺＝(f₂∧f₅). h

s_i ^-＝(f₂∧f₅).h

23.从冗余二进制到二进制的转换输入是一个x_i＝{ 1，0，1}的向量X。输出是一个y_i＝{0，1}的向量Y。向量X被划分为每组4位的8个组，i＝4m+n(n＝0..3，m＝0..7)。在各组之间：

·当这个组中最左边非零数字是‘ 1’时，生成组借位g_m。

·当所述组没有任何‘1’时，传送组借位g_m-1。

在各组中：

·当数字是‘ 1’时，生成一个借位b_i

·当数字不是‘1’时，传送一个借位b_i-1：b_i＝b_i-1

b_i-1	x_i ⁺x_i ^-	y_i	b_i
b_i-1	x_i ⁺x_i ^-	y_i	b_i	0	00	0	0
0	1x	1	0	0	00	0	0
0	1x	1	0	0	x1	1	1
1	00	1	1	0	x1	1	1
1	00	1	1	1	1x	0	0
1	x1	0	1	1	1x	0	0

表6一个组中的输出和借位

对于i≠0，4，8，…，28，y_i＝(x_i ⁺∧x_i ^-)b_i-1

对于i＝0，4，8，…，28，y_i＝(x_i ⁺∧x_i ^-)g_4i-1

24.GF(2ⁿ)

由于不存在借位，因此转换很简单。如果我们抑制所有的借位，那么GF(p)的电路将给出正确的答案。

组合逻辑：

对于i≠0，4，8，…，28，y_i＝(x_i ⁺∧x_i ^-)(b_i-1.GFp)

对于i＝0，4，8，…，28，y_i＝(x_i ⁺∧x₁ ^-)(g_4i-1.GFp)

流水线乘法器

如图1中所示的流水线乘法器也能用于GF(2ⁿ)，但是在右侧部分的-Y[0]被设置为‘0’。上面描述了所有其它改进。

Claims

1.一种乘法器设备，该设备被安排用于以素数为模将第一长整数实体与第二长整数实体相乘，所述设备其特征在于包括一个流水线乘法器内核，同时以蒙哥马利方式执行全部的乘法。

2.如权利要求1所述的设备，还被安排用于实现改进的布斯算法。

3.如权利要求2所述的设备，还被安排用于以并行结构减去y₀*X。

4.如权利要求1所述的设备，被安排用于以各个多项式的形式乘以所述第一和第二整数实体，并且在伽罗瓦域GF(2ⁿ)中以一个不可约的多项式为模。

5.如权利要求1所述的设备，其被应用于执行一种类似RSA的计算。

6.如权利要求1所述的设备，其被应用于执行一种椭圆曲线计算。