CN109614072B

CN109614072B - 对素数取模、素域中模乘运算的实现方法和装置

Info

Publication number: CN109614072B
Application number: CN201811142273.4A
Authority: CN
Inventors: 徐建国; 潘国振; 朱冠胤; 廖恬瑜; 杨艺宾
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2023-06-27
Anticipated expiration: 2038-09-28
Also published as: CN109614072A

Abstract

本说明书提供一种对素数取模的实现方法，用于计算A mod P，其中A是最大位数为B_A的二进制数，P为B_P位二进制数素数、并且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；所述方法包括：将a_i输入Nm个BWm位的取模加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

a_i为A的第i*BWm位到第((i+1)*BWm‑1)位；Na＝(B_A+mod(B_A，BWm))/BWm；σ_t和s_t，n满足

s_t，n为S_t的第n*BWm位到第((n+1)*BWm‑1)位，s_t，n或者等于某个a_i或者等于0；将加权和SumS对P取模。

Description

对素数取模、素域中模乘运算的实现方法和装置

技术领域

本说明书涉及数据处理技术领域，尤其涉及一种对素数取模的实现方法和装置、一种素域中模乘运算的实现方法和装置。

背景技术

取模运算是计算机领域十分重要的运算方式，其中对素数取模在哈希算法、加解密算法等场景中都有着广泛的应用。在对时效要求较高的场合，经常采用专门的硬件来更快的完成这些算法，如基于FPGA(Field Programmable Gate Array，可编程逻辑阵列)、或ASIC(Application Specific Integrated Circuit，专用集成电路)的硬件加速卡。

随着互联网金融的发展和普及，对网络安全服务的要求越来越高，加解密算法中使用的二进制位数越来越大。而取模运算的位数越大，硬件完成运算所需的时间越长，对网络服务时效有着不容忽视的不利影响。

发明内容

有鉴于此，本说明书提供一种对素数取模的实现方法，用于计算A mod P，其中A是最大位数为B_A的二进制数，P为B_P位二进制数素数、并且P满足

m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m，n为整数；BWm为自然数；所述方法包括：

将a_i输入Nm个BWm位的取模加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

a_i为A的第i*BWm位到第((i+1)*BWm-1)位；i为从0到(Na-1)的整数；Na＝(B_A+mod(B_A，BWm))/BWm；Ns为自然数；t为从1到Ns的自然数；σ_t为整数，σ_t和s_t，n满足

s_t，n为S_t的第n*BWm位到第((n+1)*BWm-1)位，s_t，n或者等于某个a_i或者等于0；

将加权和SumS对P取模。

本说明书提供的一种素域中模乘运算的实现方法，用于计算(C*D)mod P，其中C、D为所述素域中的元素；P为所述素域的特征、为B_P位二进制数、并且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m_，n为整数；BWm为自然数；所述方法包括：

采用乘法器阵列和乘积加法器阵列，计算C与D的乘积A；

将a_i输入Nm个BWm位的加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

a_i为A的第i*BWm位到第((i+1)*BWm-1)位；i为从0到(Na-1)的整数；Na＝(B_A+mod(B_A，BWm))/BWm；B_A＝2*B_P；Ns为自然数；t为从1到Ns的自然数；σ_t为整数，σ_t和s_t，n满足/>

将加权和SumS对P取模。

本说明书还提供了一种对素数取模的实现装置，用于计算A mod P，其中A是最大位数为B_A的二进制数，P为B_P位二进制数素数、并且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m，n为整数；BWm为自然数；所述装置包括：

加权和运算单元，用于将a_i输入Nm个BWm位的取模加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

a_i为A的第i*BWm位到第((i+1)*BWm-1)位；i为从0到(Na-1)的整数；Na＝(B_A+mod(B_A，BWm))/BWm；Ns为自然数；t为从1到Ns的自然数；σ_t为整数，σ_t和s_t，n满足/>

取模运算单元，用于将加权和SumS对P取模。

本说明书提供的一种素域中模乘运算的实现装置，用于计算(C*D)mod P，其中C、D为所述素域中的元素，P为所述素域的特征；P为B_P位二进制数且P满足

乘法运算单元，用于采用乘法器阵列和乘积加法器阵列，计算C与D的乘积A；

加权和运算单元，用于将a_i输入Nm个BWm位的加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

取模运算单元，用于将加权和SumS对P取模。

本说明书提供的一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行上述对素数取模的实现方法所述的步骤。

本说明书提供的一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行上述web访问实现方法所述的步骤。

本说明书提供的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述对素数取模的实现方法所述的步骤。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述应用在终端上的web访问的实现方法所述的步骤。

由以上技术方案可见，本说明书的实施例中，对满足

的素数P，计算Ns个Nm*BWm位的加数项S_t的加权和

其中S_t及其σ_t基于A的第i*BWm位到第((i+1)*BWm-1)位a_i构造，使得σ_t和s_t，n满足/>

计算SumS mod P即可得到A对P取模运算结果；由于SumS的二进制位数接近P的位数而通常远小于实际应用中A的位数，以SumS进行取模运算极大的加快了取模运算的速度，降低了使用大位数除法器导致的资源占用和延迟。

附图说明

图1是本说明书实施例一中一种对素数取模的实现方法的流程图；

图2是本说明书实施例二中一种素域中模乘运算的实现方法的流程图；

图3是本说明书实施例二中一种乘法器阵列的输入输出示意图；

图4是本说明书应用示例中一种素域中实现模乘运算的FPGA结构示意图；

图5是运行本说明书实施例的设备的一种硬件结构图；

图6是本说明书实施例中一种对素数取模的实现装置的逻辑结构图；

图7是本说明书实施例中一种素域中模乘运算的实现装置的逻辑结构图。

具体实施方式

一些素数具体这样的特性：大于该素数的二进制整位数对该素数取模的结果，等于若干个小于该素数的二进制整位数的加权和对该素数取模，并且权值为整数。换言之，具备上述特性的B_P位二进制数素数P，满足式1：

式1中，BWm为自然数；Nm＝(B_P+mod(B_P，BWm))/BWm；m为0或者正整数；n是取值范围为从0到(Nm-1)的整数；对n的每个取值，ω_Nm+m，n为整数。对任意一个m，2^(Nm+m)*BWm为大于素数P的二进制整位数；

2^n*BWm为小于素数P的二进制整位数。当m取值为0、1、以及任意一个其他正整数时，每个2^(Nm+m)*BWm对P取模，都可以表示为Nm个2^n*BWm的加权和对P取模。

对最大位数为B_A位的二进制数A，令Na＝(B_A+mod(B_A，BWm))/BWm；对取值范围为从0到的(Na-1)的整数i，将A的第i*BWm位到第((i+1)*BWm-1)位记为a_i(即a_i∈[0，2^BWm-1])，当B_A≥B_P时，Na≥Nm，A可以表示为式2：

则可以得到：

设B为Nm*BWm位的二进制数，并且B≡A mod P，b_n为B的第n*BWm位到第((n+1)*BWm-1)位(即b_n∈[0，2^BWm-1])，则

由于对从Nm到(Na-1)的任意整数k，根据式1，

从式3可以得出式4：

由于ω_k，n为整数，对具备上述特性的素数P，可以按照式4从a_i计算得出各个b_n，通过求解B mod P来得到A mod P，从而将取模运算的位数从B_A位降低到接近于Nm*BWm位，以加快取模运算的速度。

因此，本说明书的实施例提出一种新的对素数取模的实现方法、和一种新的素域中模乘运算的实现方法，对于满足式1的素数P，提取A的第i*BWm位到第((i+1)*BWm-1)位a_i，以a_i为基础构造Ns个Nm*BWm位的S_t和S_t的权值σ_t，使得σ_t和S_t的第n*BWm位到第((n+1)*BWm-1)位s_t，n满足

通过对S_t的加权和SumS对P取模得到A mod P的运算结果，从而减小了取模运算的位数，在绝大多数实际应用场景中能够极大的加快取模运算的速度，降低资源占用和延迟。

本说明书的实施例可以运行在任何具有计算和存储能力的设备上，如手机、平板电脑、PC(Personal Computer，个人电脑)、笔记本、服务器等设备；还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。

本说明书的实施例一中，对素数取模的实现方法的流程如图1所示。实施例一的方法用来通过硬件求解最大位数为B_A的二进制数A(即A的取值范围为从0到

对满足式1的B_P位二进制数素数P的取模运算结果。

步骤110，将a_i输入Nm个BWm位的取模加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

其中，Ns为自然数，t为从1到Ns的自然数，σ_t为整数。

如前所述，本说明书的实施例中，通过求解B mod P来得到A mod P。由于式4中σ_t，n为整数，可以以BWm位的加法器作为取模加法器(为区别实施例二中用于乘法运算中的加法器，将用于取模运算的加法器称为取模加法器)，按照式4将a_i作为取模加法器的输入项来得到b_n，通过Nm个BWm位的独立的级联取模加法器即可得到B。

具体而言，可以构造Ns个Nm*BWm位的加数项S_t和S_t的权值σ_t。对从0到(Nm-1)的每个整数n，将S_t的第n*BWm位到第((n+1)*BWm-1)位记为s_t，n，构造Ns个S_t和S_t的权值σ_t的约束条件是：每个s_t，n或者是a_i或者是0，σ_t为整数，并且σ_t和s_t，n满足式5：

在采用Nm个BWm位取模加法器来计算Ns个加数项S_t的加权和

时，对从0到(Nm-1)的每个整数n，从低位起第(n+1)个取模加法器的输入是s_t，n(即或者是某个a_i，或者是0)，该第(n+1)个取模加法器计算的加权和是/>

等于/>

即式4中的b_n。而Nm个BWm位取模加法器计算的加权和SumS＝B。

可见，换个角度看，构造加数项S_t及其权值σ_t是一种能够并行计算出b₀到b_Nm-1，从而得到B的处理方式。对于某个满足式1的素数，可以有很多种构造S_t及σ_t的具体方式，本说明书的实施例不做限定，只要满足式5即可。

可以以采用并行进位链的BWm位加法器来组成Nm个独立的级联取模加法器，从而加快计算SumS的速度。

需要说明的是，在采用Nm个BWm位取模加法器来计算SumS时，通常需要在最高位的加法器之前采用另外的加法器来处理可能出现的进位或借位，可参照现有技术实现，不再赘述。

在一个例子中，满足式1的256位素数P₂₅₆＝fffffffe ffffffff ffffffffffffffff ffffffff 00000000 ffffffff ffffffff，A₅₁₂为512位二进制数，BWm为32，Nm为8，Na为16。对P₂₅₆，以下等式成立：

P₂₅₆＝2²⁵⁶-2²²⁴-2⁹⁶+2⁶⁴-1

2²⁵⁶≡(2²²⁴+2⁹⁶-2⁶⁴+1)mod P₂₅₆

2²⁸⁸≡(2²²⁴+2¹²⁸-2⁶⁴+2³²+1)mod P₂₅₆

2³²⁰≡(2²²⁴+2¹⁶⁰+2³²+1)mod P₂₅₆

2³⁵²≡(2²²⁴+2¹⁹²+2⁹⁶+2³²+1)mod P₂₅₆

2³⁸⁴≡(2*2²²⁴+2¹²⁸+2⁹⁶+2³²+1)mod P₂₅₆

2⁴¹⁶≡(2*2²²⁴+2¹⁶⁰+2¹²⁸+2*2⁹⁶-2⁶⁴+2³²+2*1)mod P₂₅₆

2⁴⁴⁸≡(2*2²²⁴+2¹⁹²+2¹⁶⁰+2*2¹²⁸+2⁹⁶-2⁶⁴+2*2³²+2*1)mod P₂₅₆

2⁴⁸⁰≡(3*2²²⁴+2¹⁹²+2*2¹⁶⁰+2¹²⁸+2⁹⁶+2*2³²+2*1)mod P₂₅₆

对

设/>

并且B₂₅₆≡A₅₁₂ mod P₂₅₆，则可以得到：

b₇＝a₇+3*a₁₅+2*a₁₄+2*a₁₃+2*a₁₂+a₁₁+a₁₀₁+a₉+a₈

b₆＝a₆+a₁₅+a₁₄+a₁₁

b₅＝a₅+2*a₁₅+a₁₄+a₁₃+a₁₀

b₄＝a₄+a₁₅+2*a₁₄+a₁₃+a₁₂+a₉

b₃＝a₃+a₁₅+a₁₄+2*a₁₃+a₁₂+a₁₁+a₈

b₂＝a₂-a₁₄-a₁₃-a₉-a₈

b₁＝a₁+a₁₅+2*a₁₄+a₁₃+a₁₂+a₁₁+a_1o+a₉

b₀＝a₀+2*a₁₅+2*a₁₄+2*a₁₃+a₁₂+a₁₁+a₁₀+a₉+a₈

按照约束条件：每个s_t，n或者是a_i或者是0，σ_t为整数，并且σ_t和s_t，n满足式5，来构造加数项S_t及其权值σ_t。一种满足约束条件的S_t及其权值σ_t如表1和式6所示，14个S_t由a₀到a₁₅按照表1中对应于S_t的行串接而成。

表1

SumS＝S₁+S₂+2*S₃+2*S₄+2*S₅+S₆+S₇+S₈+S₉+2*S₁₀-S₁₁-S₁₂-S₁₃-S₁₄ 式6

在按照式6计算SumS时，以32位的加法器作为取模加法器，采用8个独立的级联取模加法器。在向取模加法器输入加数项S_t时，按照表1中的排列将组成该S_t的a_i输入到用于计算对应位数的取模加法器中；对σ_t为正整数的S_t，可以将该S_t加σ_t次；对σ_t为负整数的S_t，可以将该S_t减σ_t次。计算完毕后，得到的SumS＝B₂₅₆。

步骤120，将加权和SumS对P取模。

在绝大多数应用场景中，A的二进制位数B_A远大于的P二进制位数B_P。由于SumS的位数Nm*BWm与B_P相当接近，用SumS代替A进行取模运算能够极大的加快取模运算的速度。

取模运算通常采用除法器来进行。当Nm*BWm与B_p的差距很小时，本步骤中也可以采用减法运算来对P取模，即从SumS中重复减去P直至差值小于P，从而可以采用加法器或减法器来得到取模结果。

本说明书的实施例二中，素域中模乘运算的实现方法的流程如图2所示。实施例二的方法用来通过硬件求解特征为素数P、并且P满足式1的素域中的模乘运算结果。

特征为素数P的素域F_P包括P个元素，F_P＝(0，1，…，P-1)。素域中元素的乘法是整数的模P乘法，即若C、D属于F_P，则C*D＝(C*D)mod P。由于C或D的取值范围为从0到(P-1)，C和D均为最大位数为B_P的二进制数。

步骤210，采用乘法器阵列和乘积加法器阵列，计算C与D的乘积A。

实际应用场景中通常B_P大于单个乘法器的位宽，而C与D的乘积A的最大位宽B_A＝2*B_P，通常也大于单个加法器的位宽，在这种情况下可以采用乘法器阵列和乘积加法器阵列(为区别用于取模运算中的加法器，将用于乘法运算的加法器称为乘积加法器)，来计算A＝C*D。

具体而言，设每个乘法器的输入位宽为BWp_C×BWp_D，BWp_C和BWp_D均为正整数；则乘法器阵列可以由Nc×Nd个这样的乘法器组成，其中Nc＝(B_P+mod(B_P，BWp_c))/BWp_c，Nd＝(B_P+mod(B_P，BWp_D))/BWp_D。

设每个乘积加法器的位宽为BWm，乘积加法器阵列可以由Na个这样的独立的级联乘积加法器组合而成。

设u为从0到(Nc-1)的整数，v为从0到(Nd-1)的整数，可以用(u，v)来作为某个乘法器在乘法器阵列中的序号。将C的第u*BWp_c位到第((u+1)*BWp_c-1)位记为c_u(即

)，将D的第v*BWp_D位到第((v+1)*BWp_D-1)位记为d_v(即/>

)，则可以把c_u和d_v输入第(u，v)个乘法器，该乘法器的输出为部分积PP_u，v，PP_u，v＝c_u*d_v，PP_u，v的最大位宽为(BWp_C+BWp_D)。一种乘法器阵列的输入输出示意图如图3所示。Nc×Nd个部分积PP_u，v可以同时计算得出，并行度为Nc×Nd。

将Nc×Nd个PP_u，v输入乘积加法器阵列，Na个乘积加法器的输出为A，每个乘积加法器的输出为一个a_i。由Na个独立的级联乘积加法器构成的乘积加法器阵列共有Na*BWm个输入位，将每个乘法器输出的部分积PP_u，v输入到乘积加法器阵列从低位起的第(u*BWp_C+v*BWp_D)位到第((u+1)*BWp_C+(v+1)*BWp_D-1)位，由乘积加法器阵列按照相对应的输入位对Nc×Nd个PP_u，v求和，乘积加法器阵列的输出即为A，从低位起第i个乘积加法器的输出为a_i。

可以以采用并行进位链的加法器来组成Na个独立的级联乘积加法器，从而加快计算A的速度。

步骤220，将a_i输入Nm个BWm位的加法器，计算Ns个Nm*BWm位的加数项S_t的加权和

s_t，n为S_t的第n*BWm位到第((n+1)*BWm-1)位，s_t，n或者等于某个a_i或者等于0。

步骤230，将加权和SumS对P取模。

实施例二中的步骤220和步骤230分别与实施例一的步骤110和步骤120相同，对步骤220和步骤230的详细描述请参见实施例一，不再重复。

需要说明的是，本说明书的实施例一和实施例二既可以采用可编程逻辑阵列FPGA来实现加法器、减法器、和/或除法器等硬件，也可以采用集成电路ASIC来实现上述硬件，还可以采用其他的方式，不做限定。

可见，本说明书的各个实施例中，对于满足式1的素数P，通过计算Ns个Nm*BWm位的加数项S_t的加权和

再计算SumS mod P即可得到A对P取模运算结果，其中S_t及其σ_t基于a_i构造并且使得σ_t和s_t，n满足式5。由于SumS的二进制位数接近P的位数而通常远小于实际应用中A的位数，本说明书的实施例减小了取模运算的位数，极大的加快了取模运算的速度，降低了使用大位数除法器导致的资源占用和延迟。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的一个应用示例中，一种FPGA加速卡用来进行SM2算法的解密和生成数字签名。SM2是2010年12月17日发布的椭圆曲线公钥密码算法，SM2采用256位素域P₂₅₆＝fffffffe ffffffff ffffffff ffffffff ffffffff 00000000 ffffffff ffffffff下，椭圆曲线y²＝x³+ax+b。在FPGA加速卡中需要实现素域P₂₅₆中的模乘运算，即计算(C*D)modP₂₅₆，其中C和D均为素域P₂₅₆中的元素，其最大位数为256。

一种素域P₂₅₆中实现模乘运算的FPGA结构如图4所示。

采用160个DSP(Digital Signal Processing，数字信号处理)乘法器来组成乘法器阵列，每个DSP乘法器的输入位宽分别为26位和17位(即BWp_c＝26，BWp_D＝17，Nc＝10，Nd＝16)。以MUL_u，v来表示第(u，v)个DSP乘法器，将把c_u和d_v输入MUL_u，v，得到MUL_u，v的输出PP_u，v＝c_u*d_v，PP_u，v的最大位宽为43位；其中u为从0到9的整数，v为从0到15的整数，cu为C的第u*26位到第(u*26+25)位，d_v为D的第v*17位到第(v*17+16)位。

将16个位宽为32位的独立的级联加法器组成乘积加法器阵列(即BWm＝32，Na＝16)，将160个PP_u，v分别输入到乘积加法器阵列从低位起的第(u*26+v*17)位到第(u*26+v*17+42)位。以ADDp_i来表示乘积加法器阵列中从低位起的第i个加法器，其输出为a_i，其中i为从0到15的整数，a_i为A＝C*D的第i*32位到第(i*32+31)位。ADDp_i为采用并行进位链的加法器。

将8个位宽为32位的独立的级联加法器组成取模加法器阵列(即BWm＝32，Nm＝16)，以ADDm_n来表示取模加法器阵列中从低位起的第n个加法器，其中n为从0到7的整数，ADDm_n对应于表1中第n*32位到第(n*32+31)位的一列。按照表1中的各列将a_i输入到ADDm_n，分别组成14个S_t，其中t为从1到14的整数。用取模加法器阵列按照式6计算14个S_t的加权和SumS。ADDm_n为采用并行进位链的加法器。

将SumS输入取模运算器MOD，对素数P₂₅₆取模，输出即为(C*D)mod P₂₅₆。

与上述流程实现对应，本说明书的实施例还提供了一种对素数取模的实现装置，和一种素域中模乘运算的实现装置。这两种装置均可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为逻辑意义上的装置，是通过所在设备的CPU(Central Process Unit，中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图5所示的CPU、内存以及存储器之外，上述两种装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件，和/或用于实现网络通信功能的板卡等其他硬件。

图6所示为本说明书实施例提供的一种对素数取模的实现装置，用于计算A modP，其中A是最大位数为B_A的二进制数，P为B_P位二进制数素数、并且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m，n为整数；BWm为自然数；所述装置包括加权和运算单元和取模运算单元，其中：加权和运算单元用于将a_i输入Nm个BWm位的取模加法器，计算Ns个Nm*BWm位的加数项S_t的加权和/>

s_t，n为S_t的第n*BWm位到第((n+1)*BWm-1)位，s_t，n或者等于某个a_i或者等于0；取模运算单元用于将加权和SumS对P取模。

可选的，所述取模运算单元具体用于：采用减法运算，将加权和SumS对P取模。

可选的，所述取模加法器为采用并行进位链的加法器。

图7所示为本说明书实施例提供的一种素域中模乘运算的实现装置，用于计算(C*D)mod P，其中C、D为所述素域中的元素，P为所述素域的特征；P为B_P位二进制数且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m，n为整数；BWm为自然数；所述装置包括乘法运算单元、加权和运算单元和取模运算单元，其中：乘法运算单元用于采用乘法器阵列和乘积加法器阵列，计算C与D的乘积A；加权和运算单元用于将a_i输入Nm个BWm位的加法器，计算Ns个Nm*BWm位的加数项S_t的加权和/>

可选的，所述乘法器阵列包括Nc×Nd个输入位宽为BWp_C×BWp_D的乘法器；BWp_C和BWp_D均为正整数；Nc＝(B_P+mod(B_P，BWp_C))/BWp_C，Nd＝(B_P+mod(B_P，BWp_D))/BWp_D；所述乘积加法器阵列包括Na个位宽为BWm的乘积加法器；所述乘法运算单元包括部分积计算子单元和部分积累加子单元，其中：部分积计算子单元用于将c_u和d_v输入第(u，v)个乘法器，得到部分积PP_u，v；u为从0到(Nc-1)的整数；v为从0到(Nd-1)的整数；c_u为C的第u*BWp_C位到第((u+1)*BWp_C-1)位；d_v为D的第v*BWp_D位到第((v+1)*BWp_D-1)位；部分积累加子单元用于将Nc×Nd个PP_u，v分别输入乘积加法器阵列，每个乘积加法器的输出为一个a_i，Na个乘积加法器的输出为A。

可选的，所述取模加法器为采用并行进位链的加法器；和/或，所述乘积加法器为采用并行进位链的加法器。

本说明书的实施例提供了一种计算机设备，该计算机设备包括存储器和处理器。其中，存储器上存储有能够由处理器运行的计算机程序；处理器在运行存储的计算机程序时，执行本说明书实施例中对素数取模的实现方法的各个步骤。对对素数取模的实现方法的各个步骤的详细描述请参见之前的内容，不再重复。

本说明书的实施例提供了一种计算机设备，该计算机设备包括存储器和处理器。其中，存储器上存储有能够由处理器运行的计算机程序；处理器在运行存储的计算机程序时，执行本说明书实施例中素域中模乘运算的实现方法的各个步骤。对素域中模乘运算的实现方法的各个步骤的详细描述请参见之前的内容，不再重复。

本说明书的实施例提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，这些计算机程序在被处理器运行时，执行本说明书实施例中对素数取模的实现方法的各个步骤。对对素数取模的实现方法的各个步骤的详细描述请参见之前的内容，不再重复。

本说明书的实施例提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，这些计算机程序在被处理器运行时，执行本说明书实施例中素域中模乘运算的实现方法的各个步骤。对素域中模乘运算的实现方法的各个步骤的详细描述请参见之前的内容，不再重复。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种对素数取模的实现方法，用于计算A mod P，其中A是最大位数为B_A的二进制数，P为B_P位二进制数素数，B_A≥B_P，并且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m，n为整数；BWm为自然数；所述方法包括：

s_t，n为S_t的第n*BWm位到第((n+1)*BWm-1)位，s_t，n或者等于某个a_i或者等于0；所述取模加法器是位宽为BWm的硬件；

将加权和SumS对P取模。

2.根据权利要求1所述的方法，所述将加权和SumS对P取模，包括：采用减法运算，将加权和SumS对P取模。

3.根据权利要求1所述的方法，所述取模加法器为采用并行进位链的加法器。

4.一种素域中模乘运算的实现方法，用于计算(C*D)mod P，其中C、D为所述素域中的元素；P为所述素域的特征、为B_P位二进制数、并且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m,n为整数；BWm为自然数；所述方法包括：

采用乘法器阵列和乘积加法器阵列，计算C与D的乘积A；

s_t，n为S_t的第n*BWm位到第((n+1)*BWm-1)位，s_t，n或者等于某个a_i或者等于0；所述加法器是位宽为BWm的硬件；

将加权和SumS对P取模。

5.根据权利要求4所述的方法，所述乘法器阵列包括Nc×Nd个输入位宽为BWp_C×BWp_D的乘法器；BWp_C和BWp_D均为正整数；Nc＝(B_P+mod(B_P，BWp_C))/BWp_C，Nd＝(B_P+mod(B_P，BWp_D))/BWp_D；

所述乘积加法器阵列包括Na个位宽为BWm的乘积加法器；

所述采用乘法器阵列和乘积加法器阵列，计算C与D的乘积A，包括：

将c_u和d_v输入第(u，v)个乘法器，得到部分积PP_u，v；u为从0到(Nc-1)的整数；v为从0到(Nd-1)的整数；c_u为C的第u*BWp_C位到第((u+1)*BWp_C-1)位；d_v为D的第v*BWp_D位到第((v+1)*BWp_D-1)位；

将Nc×Nd个PP_u，v分别输入乘积加法器阵列，每个乘积加法器的输出为一个a_i，Na个乘积加法器的输出为A。

6.根据权利要求4所述的方法，所述将加权和SumS对P取模，包括：采用减法运算，将加权和SumS对P取模。

7.根据权利要求4所述的方法，所述加法器为采用并行进位链的加法器；和/或，所述乘积加法器为采用并行进位链的加法器。

8.一种对素数取模的实现装置，用于计算A mod P，其中A是最大位数为B_A的二进制数，P为B_P位二进制数素数，B_A≥B_P，并且P满足

a_i为A的第i*BWm位到第((i+1)*BWm-1)位；i为从0到(Na-1)的整数；Na＝(B_A+mod(B_A，BWm))/BWm；Ns为自然数；t为从1到Ns的自然数；σ_t为整数，σ_t和s_t,n满足/>

取模运算单元，用于将加权和SumS对P取模。

9.根据权利要求8所述的装置，所述取模运算单元具体用于：采用减法运算，将加权和SumS对P取模。

10.根据权利要求8所述的装置，所述取模加法器为采用并行进位链的加法器。

11.一种素域中模乘运算的实现装置，用于计算(C*D)mod P，其中C、D为所述素域中的元素，P为所述素域的特征；P为B_P位二进制数且P满足

Nm＝(B_P+mod(B_P，BWm))/BWm；m为非负整数；n为从0到(Nm-1)的整数；ω_Nm+m,n为整数；BWm为自然数；所述装置包括：

a_i为A的第i*BWm位到第((i+1)*BWm-1)位；i为从0到(Na-1)的整数；Na＝(B_A+mod(B_A，BWm))/BWm；B_A＝2*B_P；Ns为自然数；t为从1到Ns的自然数；σ_t为整数，σ_t和s_t,n满足/>

取模运算单元，用于将加权和SumS对P取模。

12.根据权利要求11所述的装置，所述乘法器阵列包括Nc×Nd个输入位宽为BWp_C×BWp_D的乘法器；BWp_C和BWp_D均为正整数；Nc＝(B_P+mod(B_P，BWp_C))/BWp_C，Nd＝(B_P+mod(B_P，BWp_D))/BWp_D；

所述乘积加法器阵列包括Na个位宽为BWm的乘积加法器；

所述乘法运算单元包括：

部分积计算子单元，用于将c_u和d_v输入第(u，v)个乘法器，得到部分积PP_u，v；u为从0到(Nc-1)的整数；v为从0到(Nd-1)的整数；c_u为C的第u*BWp_C位到第((u+1)*BWp_C-1)位；d_v为D的第v*BWp_D位到第((v+1)*BWp_D-1)位；

部分积累加子单元，用于将Nc×Nd个PP_u，v分别输入乘积加法器阵列，每个乘积加法器的输出为一个a_i，Na个乘积加法器的输出为A。

13.根据权利要求11所述的装置，所述取模运算单元具体用于：采用减法运算，将加权和SumS对P取模。

14.根据权利要求11所述的装置，所述加法器为采用并行进位链的加法器；和/或，所述乘积加法器为采用并行进位链的加法器。

15.一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求1到3任意一项所述的方法。

16.一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求4到7任意一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行如权利要求1到3任意一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行如权利要求4到7任意一项所述的方法。