CN101097511A

CN101097511A - 使用折叠的模归约

Info

Publication number: CN101097511A
Application number: CNA2006101728399A
Authority: CN
Inventors: W·哈森普劳; G·高巴茨; V·戈帕尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-06-27
Filing date: 2006-12-30
Publication date: 2008-01-02
Anticipated expiration: 2026-12-30
Also published as: EP2033357A2; TWI350094B; US8229109B2; JP5378579B2; TW200822664A; JP2012234199A; KR101062558B1; CN101097511B; KR20090017637A; WO2008002828A2; US20070297601A1; WO2008002828A3; JP2009540394A; JP5116770B2

Abstract

描述了确定N mod M的技术，其中N是n位宽的数，而M是m位宽的数。该技术通常涉及确定N′＝N_H2^fmod M+N_L，并在随后确定N′mod M。

Description

使用折叠的模归约

背景

密码术保护数据免受不需要的访问。密码术通常涉及使原始数据(明文)难以理解(密文)的对数据的数学运算(加密)。逆数学运算(解密)从密文中恢复原始数据。密码术覆盖了比加密和解密数据更为广泛的应用领域。例如，密码术可经常用于认证(即，可靠地确定通信代理的身份)、数字签名的生成等。

当前的密码技术非常依赖密集的数学运算。例如，许多方案使用一类称为模取幂(modular exponentiation)的模算术，该算术涉及将一大数升到某次幂再用模数来归约(即，被给定模数除时的余数)。在数学上，模取幂可被表示为g^e mod M(g^e对M取模)，其中e是指数而M是模数。

概念上，乘法和模归约是直截了当的运算。然而在这些系统中使用的数的大小都很大并且远远超过处理器的固有字长。例如，密码术协议可以要求对长度为1024至4096位甚至更长的数的模运算，而许多处理器固有的字长只有32或64位。对这样的大数执行运算在时间和计算资源方面是非常昂贵的。

附图简述

图1和图2示出了Karatsuba乘法。

图3是示出Karatsuba乘法的一个示例实现的流程图。

图4和图5示出了将数N折叠成数N′，其中N≡N′。

图6示出了N mod M的确定。

图7示出了数N的迭代折叠。

图8描绘了执行Karatsuba乘法和/或模归约的体系结构。

详细描述

如上所述，各种各样的密码术运算涉及极大数的乘法和/或模归约。在此描述的是能够减轻这些计算密集型运算的负担并且能够加速密码系统的操作的各种技术。这些技术也可以在更为通用的非密码计算设置中应用。一种这样的技术涉及改进称为Karatsuba乘法的大数相乘技术的效率。另一种技术涉及改进模归约的效率。

Karatsuba乘法

已经开发了各种各样的方法来执行二个数的乘法。一种已知作为教科书乘法的通用方法涉及分割操作数并对各个更小的片段执行乘法运算。作为一个示例，两个n位宽的数A和B可以如下表示为一组更小的子片段：

A＝a₁2^s+a₀

[1]

B＝b₁2^s+b₀

[2]

其中a₀和b₀项代表A和B的最低有效位，而a₁和b₁则代表剩下的更高有效位。在这种记法中，a_x和b_x中的下标x代表一片段在数内的序数(例如，a₀代表A的最低有效位，a₁为更高一位的有效位等等)。

使用传统的教科书乘法，可以使用四次更小的乘法来计算A和B：

A x B＝a₁b₁2^2s+(a₀b₁+b₀a₁)2^s+a₀b₀

[3]

一种称为Karatsuba乘法的乘法技术能够减少片段乘法的次数。例如，对于上述A和B，所得结果：

(a₀b₁+b₀a₁)

[4]

[3]中项可被计算为：

[(a₀+a₁)(b₀+b₁)]-a₁b₁-a₀b₀

[5]

因为a₁b₁和a₀b₀形成了方程[3]中的其他项，所以在方程[5]中使用的值并不代表额外的计算成本。用方程[5]取代方程[3]中的方程[4]，A x B的Karatsuba乘法可以计算为：

A x B＝a₁b₁2^2s+([(a₀+a₁)(b₀+b₁)]-a₁b₁-a₀b₀)2^s+a₀b₀

[6]

这一取代用两个加法和一个简单乘法换取了两个乘法。在大多数情况下，这代表了计算效率的大幅增加。

在上述示例中，Karatsuba乘数被分为两段(即，“二项Karatsuba乘法”)。然而Karatsuba也可应用于其他数目的片段。例如，可以为数A和B定义三项Karatsuba乘法：

A＝a₂2^2s+a₁2^s+a₀

[7]

B＝b₂2^2s+b₁2^s+a₀

[8]

A x B＝a₂b₂2^4s+a₁b₁2^2s+a₀b₀+[(a₂+a₁)(b₂+b₁)-a₂b₂-a₁b₁]2^3s+

[(a₂+a₀)(b₂+b₀)-a₂b₂-a₀b₀]2^2s+[(a₀+a₁)(b₀+b₁)-a₀b₀-a₁b₁]2^s

[9]

其中A和B分别被分成三个S位的片段。

类似于二项Karatsuba乘法[6]，三项Karatsuba乘法[9]用相同序数片段(例如，a_xb_x)的乘法运算和相一数的片段的加法(例如，a_x+a_y)来取代不同序数片段之间的乘法(例如，a_xb_y)。还可以为五项Karatsuba乘法定义方程。这些Karatsuba方程共用它们需要最多(t²+t)/2次乘法的性质，其中t是项数。

Karatsuba乘法可用递归来实现。例如，在二项Karatsuba乘法中：

A x B＝a₁b₁2²ⁿ+((a₀+a₁)(b₀+b₁)-a₁b₁-a₀b₀)2ⁿ+a₀b₀

[6]

进而可以使用Karatsuba来执行每个较小片段的乘法。例如，执行A x B的Karatsuba乘法可以涉及a₁b₁、a₀b₀和(a₀+a₁)(b₀+b₁)的Karatsuba乘法。这些乘法可以涉及更小的子片段的Karatsuba乘法。例如，确定a₁b₁可以涉及将a₁和b₁分成多项子片段。

然而，这种方法的潜在问题是所生成的不同大小的操作数。即，(a₀+a₁)项和(b₀+b₁)项都可能在加法运算中产生进位。随后对(a₀+a₁)和(b₀+b₁)结果的乘法则可能溢出到额外的固有字中。这会大幅降低Karatsuba实现的效率。

为解决“进位”问题，图1至图3示出了对两个操作数的最低有效位执行Karatsuba乘法并在随后基于最高有效位校正所得结果的示例实现。更详细地，图1示出了两个相乘的操作数A100和B102。在此示例中，每个操作数都是n+1位宽，其中n是某一处理器固有字长s的两倍。在此示例中，每个操作数都被分为两项和一个额外的高位。例如，A的最低s个有效位形成a₀，接下来的s个有效位形成a₁，而A的最高有效位则形成a_h。

如图所示，使用如下方程对s大小的项执行Karatsuba乘法：

2^2Sa₁b₁+2^s[(a₁+a₀)(b₁+b₀)-a₁b₁-a₀b₀]+a₀b₀

[10]

所得结果可以基于最高有效位a_h和b_h的值进行调整。例如，如图所示，结果可以增加

2ⁿa_hB[b₁:b₀]

106[11]

和

2ⁿb_h A[a₁:a₀]

108[12]

换言之，如果a_h是“1”，则所得结果就增加移了n位的b1:b0的n位。类似地，如果b_h是“1”，则所得结果就增加移了n位的a1:a0的n位。这些调整可以实现为额外的运算，例如：

结果＝结果+2ⁿa_hB[b₁:b₀]

结果＝结果+2ⁿb_hA[a₁:a₀]

或作为后跟加法的分支：

if(a_h)then结果＝结果+2ⁿB[b₁:b₀]

if(b_h)then结果＝结果+2ⁿA[a₁:a₀]

最后，如果a_h和b_h都是“1”，那么所得结果就增加2ⁿ(即，a_hb_h)。这能够使用分支来实现，例如：

if(a_h b_h)then结果＝结果+2²ⁿ

加法与一个或多个分支语句的这一组合能够防止将进位向下传播到更低级别的递归。

图2示出了上述值为469的A 100乘上值为369的B 102的过程的运算。如图所示，排除了最高有效位的a_h和b_h位，A[2s-1:0]和B[2s-1:0]的Karatsuba乘法产生值24,069。该值首先对a_h调整至78,597，随后再对b_h调整至107，525。最后，因为a_h和b_h都为“1”，所以就加上对于2²ⁿ＝16的最高有效位以产生最终的答案173,061。同样地，可以通过Karatsuba技术的递归应用确定a_xb_x的值。通过切去a_h和b_h位，递归就能对相同的适宜大小的操作数进行运算。

图3示出了该Karatsuba技术在一递归方案中的实现。如上所述，运算数A和B的Karatsuba乘法可由其后跟随了对A和B最高有效位a_h和b_h的校正116的A[n:0]和B[n:0]的乘法114来执行。所得的结果就返回118至递归栈。

Karatsuba乘法在操作数的长度远长于处理器固有字长时尤其理想。例如，处理器与更长的操作数相比只有固有字长s。当n接近s时，Karatsuba的效率降低，而教科书乘法则变得更有吸引力。于是，如图3所示，取决于递归的当前深度112，该过程可以使用教科书乘法120、122或者Karatsuba104、106和108。在实践中，使用教科书乘法执行最后两级递归(例如，L＝2)可以提供最佳的整体性能。

虽然图1至图3描述了示例实现，但是也存在许多变化。例如，在图1至图3中，每个Karatsuba项都被描绘为s位宽。然而，各项既无需具有相同的位宽又无需占满单个固有字。类似地，虽然将a_h和b_h描述为单个位，但是在其他实现中，a_h和b_h可以包括多个位。

如上所述，可以为不同数目的项(例如，2、3和5)定义不同的Karatsuba方程。标准Karatsuba分解是如下六个长度之一的数：

n＝2^k

n＝3·2^k

n＝3²·2^k

n＝3³·2^k

n＝3⁴·2^k

n＝5·2^k

其中n是数的长度，而k是整数。

为了优化Karatsuba分解，可以为一个数填充零以符合更大的标准型。为分辨使用了哪个标准Karatsuba分解，可以计算每一分解的工作量w并选择最小的一个：

可以为不同的n值计算w的值。所得的结果例如可用于形成指示基于给定n的最低w值来填充给定数的量的查找表。

使用折叠的模归约

除了乘法之外，许多密码方案涉及模归约(例如，N mod M的计算)。为了减小模归约运算的花费，某些系统使用称为Barrett模归约的技术。本质上，Barrett计算商的估计，

q＝floor(floor(N/2^m)μ/M)

[13]

其中m是模数M的宽度，而μ是由下式确定的常数：

μ＝floor(2²ⁿ/M).

[14]

其中n是数N的宽度。N mod M的值随后可通过计算N-qM确定，其后如有必要可最终减去M以确保最终值小于M。对Barrett的效率作出贡献的是存取μ的预计算的值的能力。即，可以只基于N的大小确定μ的值而无需存取N的特定值。

诸如Barrett模归约等技术可以降低模归约的花费。图4至图6示出了能够进一步减小模归约计算成本的技术。更具体地，图4示出了将数N 202“折叠成”宽度更小的数N′206。尽管宽度更小，但折叠运算确定N′，就使得N′mod M与N modM相同。诸如经典Barrett模归约等传统运算随后就能对更小的N′进行运算。通过“收缩”操作数N，后续的运算涉及能够简化用于确定模余数的乘法的大小更小的数。此外，数N越大，效率也就变得越明显。例如，示例测试估计对512位大小N的增速达27％，而对4096位的N的增速则可跃至177％。

更详细地，图4描绘了宽度为n的数N 202以及宽度为m的数M 200。为了确定N mod M，“折叠”运算212从N中生成N′。如图所示，折叠212在将N描绘成较高有效部分N_H和较低有效部分N_L的折叠点f处发生。例如，可以选择折叠点f落在模数的长度和N的长度的中点处。例如，假设N的宽度为2m(模数宽度的两倍)，则折叠点可以位于由2^1.5m标识的数位位置上。这一折叠点能够让所得的N′的宽度最小。即，在任意方向上移动折叠点以扩张或收缩N_H或N_L能够实际增加N′的大小。

基于折叠点，N′可被确定为：

N′＝N_H2^fmod M+N_L

212[15]

随后例如可以用经典Barrett技术，使用该较小的N′来执行模归约。

如图所示，N′的确定212涉及2^fmod M 208(称其为M′)的项。可以预计算2^fmod M的值而无需参考具体的N值。为M和f的各种值预计算这一值能够通过将费时的乘法移至对时间要求不那么高的周期来加速N′的实时计算。可以将用于M和f值的预计算的值存储在存储器内的表中以便快速存取。N_H(2^fmod M)的乘法例如可以使用上述Karatsuba乘法来执行。

为了阐述清楚，图5示出了一个折叠示例，其中N是值为252的8位宽的数(1111，1100b)，而M是值为13的4位宽的数(1101b)。如图所示，折叠点被选为f＝2^1.5m＝2⁶。N′的计算产生了值96。如图所示，N与其相应的折叠数N′对模数13都产生了相同的模余数5。可以使用诸如Barrett等各种模归约方法中的任何方法来执行N′的模归约。

图6描绘了使用上述技术来完整确定N mod M的一个示例。在此示例中，N 202的宽度n＝4s，而M 204的宽度m＝2s。如图所示，折叠点f是2^3s。如图所示，为M′＝2^3smod M 222预计算的值可用于确定(M′)(N_H)224。虽然图6将N_H表达为floor(N/2^3s)的值，但是通过设置N_H＝N[4s-1:3s]能够更快地获取N_H的值。(M′)(N_H)224的值可以加至N_L 226以完成N′的计算。同样地，虽然该图将N_L表达为N mod 2^3s，但是通过设置N_H＝N[3s-1:0]能够更快地获取N_L的值。

在确定N′之后，就可以使用经典Barrett归约来计算N′mod M。在此情况下，可如下计算Barrett归约230，234：

R＝N′-floor(floor(N′/2^2s)(μ/2^s))M

[16]

其中μ被确定为floor(2^3s/M)。与M′的值类似，能够为s和M的多个值预计算μ的值。这一预计算再次可将费时的操作时移至不要求实时运算的周期。

所得的R 236可以大于模数M 200。在这一相当罕有的情况下，可以使用减法R＝R-M以确保R＜M。

单个折叠运算能够显著改进模归约的效率和实时性能。如图7所示，重复的折叠能够提供与消耗的乘法和ALU运算(例如，加、减和移位)总数相关的进一步效率。如图所示，N 202再次被折叠成N′204。所得的N′的宽度通常为f。在N′的宽度为f+1时，虽然不是必须的，但仍可以使用减法运算N′＝N′-(M 2^m)来“修整”N′。如图所示，额外的折叠操作再将N′变换成N″206，其中N″mod M＝N′modM。这第二次折叠又能增加计算效率。

在不同折叠迭代中使用的折叠点从用于第一次迭代的2^1.5m移至用于第二次迭代的2^1.25m。更一般地，用于给定迭代的折叠点可以被确定为2^{(1+2^-i)m}，其中i是迭代数。

虽然图7描绘了两次折叠，但额外的折叠也是可行的。然而，额外的折叠会导致收益递减和/或实际上增加乘法运算的次数。

模取幂的示例实现

上述技术可用于执行各种密码运算。例如，可以组合上述Karatsuba乘法和折叠技术以执行模取幂。

再一次，模取幂涉及g^emod M。执行模取幂是多各密码算法的中心。例如在RSA中，公钥是通过公有指数e-public和模数M来形成的。而私钥是通过私有指数e-private和模数M来形成的。为了加密消息(例如，分组或分组净荷)，执行如下运算：

密文＝明文^e-publicmod M

[17]

为解密消息，执行如下运算：

明文＝密文^e-privatemod M

[18]

用于执行模取幂的一个过程按从左到右的顺序处理指数e的各个位。从初值A＝1开始，该过程对遇到的每个“0”位将值平方(即，A＝A*A)。对于每个“1”位，该过程既将该值平方又将其与g相乘(即，A＝A*A*g)。最终的结果可用于模归约运算。例如，为确定3^1010bmod 5，该过程如下进行运算，其中g＝3、e＝″1010″而M＝5：

A

1

指数位1-1 1*1 *3＝3

指数位2-0 3*3 ＝9

指数位3-1 9*9*3 ＝243

指数位4-0 243*243＝59049

A mod M 4

可以在乘法运算中，诸如在处理每个指数位或每几个指数位之后交插模归约，以代替在已经累加成非常大的数时在最后执行模归约。例如，为计算3^1010b mod 5，该过程可以如下行进：

A

1

指数位1-1 1*1*3 ＝3

A mod M 3

指数位2-0 3*3 ＝9

A mod M 4

指数位3-1 4*4*3 ＝48

A mod M 3

指数位4-0 3^2 ＝9

A mod M 4

不管具体的实现如何，对平方和“g”乘法都使用上述Karatsuba乘法计算就能显著加速模取幂。此外，使用折叠，归约运算消耗的处理资源显著减少。

通过存储重复使用的值能获得额外的计算效率。例如，在该示例中有两个不同的乘法都涉及g。在2048位指数的现实示例中，使用g的数乘法会大的多。为了改进涉及g的Karatsuba乘法效率，可将不同值g_i＝(g_H(i)+g_L(i))存储在表格内以供重复使用，其中i代表Karatsuba递归的深度。这一高速缓存可以节省冗余地执行相同的加法的大量周期。高速缓诸如在折叠中使用的M′和μ等其他频繁使用的值也能在模归约使用相同模数多次发生的情况下提高性能。

在执行大小不等的数的乘法，诸如1k大小的数和2k大小的数的乘法时可使用额外的优化。这些乘法可以在确定Barrett的qM值以及在确定N_H 2^fmod M时发生。为利用Karatsuba，1k*2k乘法可以分解为两个1k*1k运算，诸如q*m_h和q*m₁。因为在两个运算中都使用了q，所以无需两次确定(q_h+q₁)的值，而只需对其进行存储以备进一步的使用。

同样地，以上仅是一个示例，并且Karatsuba和折叠技术还可用于执行各种各样的其他密码运算以及其他通用的数学应用。

可以用各种方法并在各种系统内实现这些技术。例如，这些技术可以用(例如，由以上用诸如Verilog(tm)等硬件描述语言描述的编程技术所确定的)专用数字或模拟硬件、固件来实现，和/或被实现为ASIC(专用集成电路)或可编程门阵列(PGA)。这些技术还可被实现为放置在计算机可读介质上用于处理器执行的计算机程序。例如，处理器可以是通用处理器。

如图8所示，这些技术可以通过由能卸载密码运算的处理器模块300所执行的计算机程序来实现。如图所示，模块300包括多个可编程处理单元306至312以及专用硬件乘法器316。处理单元306至312如核心302所指示的对从共享存储器逻辑304中下载的数据运行程序。其他的处理器和/或处理器核心可以向模块300发出指定要执行的数据和运算的命令。例如，处理器核心可以向模块300发出对存储在RAM 314中的g、e和M执行模取幂的命令。核心302可通过向共享存储器逻辑304发出指令以将模取幂程序下载至处理单元306至312并将正被运算的数据从RAM 314下载至共享存储器304在最后下载到处理单元306至312来响应。处理单元306至312进而执行这些程序指令。更具体地，处理单元306至312可使用乘法器316来执行诸如Karatsuba乘法等用于执行平方或“g”乘法的乘法。一旦完成，处理单元306至312能够把结果返回给共享存储器逻辑304以传递给请求核心。处理模块300可以与可编程核心集成在同一管芯上或不同的管芯上。

同样，图8仅示出了用于实现上述Karatsuba和折叠技术的示例体系结构。然而这些技术能够在各种各样的其他体系结构中使用，诸如用于已编程的传统通用处理器。

其他实施例落入所附权利要求书的范围内。

Claims

1.一种置于计算机可读存储介质上的计算机程序，包括使电路确定N mod M的指令，其中N是n位宽的数，而M是m位宽的数，所述程序用于：

确定N′＝N_H2^fmod M+N_L，

其中

N_H包含N的较高有效部分，并且

N_L包含N的较低有效部分，

f包含将N分段成N_H和N_L的位置；以及

确定N′mod M。

2.如权利要求1所述的计算机程序，其特征在于，f包含N内对应于2^1.5m的一位。

3.如权利要求1所述的计算机程序，其特征在于，所述确定N′mod M的指令包含存取2^fmod M的预计算的值的指令。

4.如权利要求1所述的计算机程序，其特征在于，所述确定N′mod M的指令包含执行N′mod M的Barrett模归约的指令。

5.如权利要求4所述的计算机程序，其特征在于，所述确定N′mod M的Barrett模归约的指令包含存取floor(2^f/M)的预计算的值的指令。

6.如权利要求1所述的计算机程序，其特征在于，所述确定N′mod M的指令指令用于：

确定N″＝N′_H 2^f′mod M+N′_L，

其中

N′_H包含N′的较高有效部分，并且

N′_L包含N′的较低有效部分，

f′包含将N′分段成N′_H和N′_L的位置；以及

确定N″mod M。

7.如权利要求6所述的计算机程序，其特征在于，f′包含N′内对应于2^1.25m的一位。

8.如权利要求6所述的计算机程序，其特征在于，所述确定N″ mod M的指令包含存取2^f′mod M的预计算的值的指令。

9.如权利要求6所述的计算机程序，其特征在于，所述确定N″ mod M的指令包含执行N″mod M的Barrett模归约的指令。

10.如权利要求9所述的计算机程序，其特征在于，所述确定N″ mod M的Barrett模归约的指令包含存取floor(2^f′/M)的预计算的值的指令。

11.如权利要求1所述的计算机程序，其特征在于，M包含公钥的模数。

12.一种系统，包括：

用于确定N mod M的电路，其中N是n位宽的数，并且M是m位宽的数，所述电路用于：

确定N′＝N_H 2^fmod M+N_L，

其中

N_H包含N的较高有效部分，并且

N_L包含N的较低有效部分，

f包含将N分段成N_H和N_L的位置；以及

确定N′mod M。

13.如权利要求12所述的系统，其特征在于，f包含N内对应于2^1.5m的一位。

14.如权利要求12所述的系统，其特征在于，所述用于确定N′mod M的电路包含用于进行以下步骤的电路：

确定N″＝N′_H 2^f′mod M+N′_L，

其中

N′_H包含N′的较高有效部分，并且

N′_L包含N′的较低有效部分，

f′包含将N′分段成N′_H和N′_L的位置；以及

确定N″mod M。

15.如权利要求12所述的系统，其特征在于，M包含公钥的模数。

16.如权利要求12所述的系统，其特征在于，所述电路包含执行确定N′和N′mod M的指令的可编程电路。

17.如权利要求12所述的系统，其特征在于，还包括与所述电路集成在同一管芯上并与所述电路通信耦合的可编程核心。

18.一种用于确定N mod M的计算机实现的方法，其中N是n位宽的数，而M是m位宽的数，所述方法包括：

确定N′＝N_H 2^fmod M+N_L，

其中

N_H包含N的较高有效部分，并且

N_L包含N的较低有效部分，

f包含将N分段成N_H和N_L的位置；以及

确定N′mod M。

19.如权利要求18所述的计算机实现的方法，其特征在于，f包含N内对应于2^1.5m的一位。

20.如权利要求18所述的计算机实现的方法，其特征在于，所述确定N′ modM包含存取2^fmod M的预计算的值。

21.如权利要求18所述的计算机实现的方法，其特征在于，所述确定N′modM包含执行N′mod M的Barrett模归约。

22.如权利要求18所述的计算机实现的方法，其特征在于，所述确定N′modM包含：

确定N″＝N′_H 2^f′mod M+N′_L，

其中

N′_H包含N′的较高有效部分，并且

N′_L包含N′的较低有效部分，

f′包含将N′分段成N′_H和N′_L的位置；以及

确定N″mod M。

23.如权利要求22所述的计算机实现的方法，其特征在于，f′包含N′内对应于2^1.25m的一位。

24.如权利要求22所述的计算机实现的方法，其特征在于，所述确定N″ modM包含执行N″mod M的Barrett模归约。

25.如权利要求22所述的计算机实现的方法，其特征在于，M包含公钥的模数。