CN114385112A

CN114385112A - 处理模数乘法的装置及方法

Info

Publication number: CN114385112A
Application number: CN202111145915.8A
Authority: CN
Inventors: 林文景
Original assignee: Entropy Code Technology Co ltd
Current assignee: Entropy Code Technology Co ltd
Priority date: 2020-10-21
Filing date: 2021-09-28
Publication date: 2022-04-22
Also published as: TW202217551A; US20220121424A1; TWI786841B

Abstract

一种用来处理模数乘法的模数运算装置，包含有：一控制器，设置以将一被乘数划分为多个被乘数字元，将一乘数划分为多个乘数字元，以及将一模数划分为多个模数字元；第一多个处理组件，耦接所述控制器，设置以计算第一多个更新进位结果及第一多个更新总和结果；第二多个处理组件，耦接所述控制器，设置以计算第二多个更新进位结果及第二多个更新总和结果；以及一简化组件，耦接所述控制器，设置以根据所述第二多个更新进位结果及所述第二多个更新总和结果计算一结果余数。

Description

处理模数乘法的装置及方法

技术领域

本发明相关于一种计算装置，尤其涉及一种模数运算装置及处理模数乘法(modular multiplication)的方法。

背景技术

具大量运算数(operand)的模数乘法被广泛使用在公钥密码系统(public-keycryptosystem)中。举例来说，模数乘法的运算可包含有迭代地计算进位结果(carryresult)及总和结果(sum result)，以及根据所述总和结果，可计算结果余数(resultingremainder)。然而，对应于字元(word)的进位结果及总和结果的计算依赖于对应于其他字元的其他进位结果及其他总和结果，造成模数乘法的实现效率低下。因此，有效率的模数乘法为亟待解决的问题。

发明内容

因此，本发明提供处理模数乘法的装置及方法，以解决上述问题。

本发明实施例公开一种用来处理模数乘法的模数运算装置(modular operationdevice)，包含有：一控制器(controller)，设置以将一被乘数(multiplicand)划分为多个被乘数字元(multiplicand word)，将一乘数(multiplier)划分为多个乘数字元(multiplier word)，以及将一模数(modulus)划分为多个模数字元(modulus word)；第一多个处理组件(processing element)，耦接所述控制器，设置以根据所述多个被乘数字元、所述多个乘数字元的一乘数字元、第一多个进位结果及第一多个总和结果计算第一多个更新进位结果(updated carry result)及第一多个更新总和结果(updated sum result)，其中所述第一多个处理组件的至少两个处理组件根据所述乘数字元及所述多个被乘数字元的至少两个被乘数字元平行计算所述第一多个更新进位结果的至少两个更新进位结果，以及所述至少两个处理组件根据所述乘数字元及所述至少两个被乘数字元平行计算所述第一多个更新总和结果的至少两个更新总和结果；第二多个处理组件，耦接所述控制器，设置以根据所述多个模数字元、所述第一多个更新进位结果及所述第一多个更新总和结果计算第二多个更新进位结果及第二多个更新总和结果；以及一简化组件(reduction element)，耦接所述控制器，设置以根据所述第二多个更新进位结果及所述第二多个更新总和结果计算一结果余数。

本发明实施例还公开来处理一模数乘法的模数运算装置，包含有：一控制器，设置以将一被乘数划分为多个被乘数区块(multiplicand block)，将一乘数划分为多个乘数区块(multiplier block)，以及将一模数划分为多个模数区块(modulus block)；一处理组件(processing unit)，耦接所述控制器，设置以执行以下指令：根据所述多个被乘数区块的一第一被乘数区块、所述多个乘数区块的一第一乘数区块及所述多个模数区块的一第一模数区块，计算第一多个总和结果；根据所述多个被乘数区块的一第二被乘数区块、所述第一乘数区块及所述多个模数区块的一第二模数区块，计算第二多个总和结果及多个延迟总和结果(delayed sum result)；根据所述第一多个总和结果、所述多个延迟总和结果、所述第一被乘数区块、所述多个乘数区块的一第二乘数区块及所述第一模数区块，计算第一多个更新总和结果；以及根据所述第二多个总和结果、所述第二被乘数区块、所述第二乘数区块及所述第二模数区块，计算第二多个更新总和结果及多个更新延迟总和结果(updateddelayed sum result)；以及一简化组件，耦接所述控制器及所述处理组件，设置以根据所述第一多个更新总和结果、所述第二多个更新总和结果及所述多个更新延迟总和结果计算一结果余数。

附图说明

图1为本发明实施例一模数运算装置的示意图。

图2为本发明实施例一模数运算装置的运算的示意图。

图3为本发明实施例处理组件的平行处理的表格。

图4为本发明实施例处理组件的平行处理的数据流的示意图。

图5为本发明实施例处理组件的示意图。

图6为本发明实施例进位结果及总和结果的数据相依性的示意图。

图7为本发明实施例一模数乘法运算的调度表。

图8为本发明实施例一流程的流程图。

图9为本发明实施例一模算装置的运算的示意图。

图10为本发明实施例一模算装置的运算的示意图。

图11为本发明实施例一模数乘法运算的调度表。

图12为本发明实施例进位结果及总和结果的数据相依性的示意图。

图13为本发明实施例进位结果及总和结果的数据相依性的示意图。

图14为本发明实施例进位结果及总和结果的数据相依性的示意图。

图15为本发明实施例一流程的流程图。

图16为本发明实施例一流程的流程图。

图17为本发明实施例一流程的流程图。

图18为本发明实施例处理组件的数据流的示意图。

其中，附图标记说明如下：

10、20、90、101：模数运算装置

100：至少一处理电路

110、220、920、1020：至少一储存装置

114：程序代码

120：通信接口装置

130：至少一快取内存

140、200、900、1000：控制器

C、Sc：进位结果

S、Ss：总和结果

PE：处理组件

210、910、1010：简化组件

A：被乘数

B：乘数

P：模数

AW：被乘数字元

BW：乘数字元

PW：模数字元

Mc’、Sc’：更新进位结果

Ms’、Ss’、S’：更新总和结果

30：表格

(S_s)～：移位总和结果

q：额外商数

(M_c)～'：移位更新进位结果

70、110：调度表

80、150、160、170：流程

800～820、1500～1524、1600～1618、1700～1716：步骤

1040：多个快取内存

AB：被乘数区块

BB：乘数区块

PB：模数区块

L：延迟总和结果

L’：更新延迟总和结果

H：延迟进位结果

具体实施方式

图1为本发明实施例一模数运算装置(modular operation device)10的示意图。模数运算装置10可包含有至少一处理电路(例如单元或组件)100、至少一储存装置110、至少一通信接口装置120、至少一快取内存(cache memory)130及至少一控制器(controller)140。至少一处理电路100可为一(微)处理器、多核心处理器(multi-core processor)、特定应用集成电路(Application Specific Integrated Circuit，ASIC)或中央处理单元(Central Processing Unit，CPU)。至少一储存装置110可为任意储存装置，用来储存一程序代码114，至少一处理电路100可通过至少一储存装置110读取及执行程序代码114。至少一储存装置110可为任一数据储存装置，举例来说，至少一储存装置110包含有用户识别模块(Subscriber Identity Module，SIM)、只读式内存(Read-Only Memory，ROM)、快闪内存(flash memory)、随机接入内存(Random-Access Memory，RAM)、只读记忆光盘(CompactDisc Read-Only Memory，CD-ROM)、只读记忆数字多功能光盘(digital versatile disc-ROM，DVD-ROM)、只读记忆蓝光光盘(Blu-ray Disc-ROM，BD-ROM)、磁带(magnetic tape)、硬盘(hard disk)、光学数据储存装置(optical data storage device)、非挥发性储存装置(non-volatile storage device)、非暂态计算机可读取介质(non-transitory computer-readable medium)(例如具体媒体(tangible media))等，而不限于此。至少一通信接口装置120可为一无线收发器，其是根据至少一处理电路100的处理结果，用来传送及接收信号(例如数据、消息及/或分组)。至少一快取内存130可为任意类型的快取内存(L1/L2/L3/L4/L5/L#)。至少一快取内存130被至少一处理电路100读取及执行，以及可直接与至少一处理电路100连接、紧邻或整合为至少一处理电路100的一部分。至少一控制器140可控制包含在模数运算装置10中的成分。

根据一模数乘法(modular multiplication)，实施模数乘法的运算包含有迭代地(iteratively)计算进位结果(carry result)及总和结果(sum result)，以及根据所述总和结果，可计算一结果余数(resulting remainder)。举例来说，对应于一较低有效字元(less significant word)(例如32位元或64位元)的进位结果C_j-1、进位结果C_j及对应于一字元的总和结果S_j，以及对应于一较高有效字元(more significant word)的总和结果S_j+1被迭代地计算。然而，总和结果S_j是基于进位结果C_j-1被计算。此外，第i次迭代中的总和结果S_j是基于第(i-1)次迭代中的总和结果S_j+1被计算。所述模数乘法可为一蒙哥马利乘法(Montgomery multiplication)，但不限于此。

图2为本发明实施例一模数运算装置20的运算的示意图。在图2中，模数运算装置20包含有K个处理组件PE₀～PE_K-1，K个处理组件PE_K～PE_2K-1、一控制器200、一简化组件(reduction element)210及至少一储存装置(例如主要内存)220，其中K≥2。控制器200耦接在处理组件PE₀～PE_K-1，处理组件PE_K～PE_2K-1、简化组件210及至少一储存装置220。

详细来说，基于蒙哥马利乘法演算法，模数运算装置20被使用在计算一被乘数(multiplicand)A及一乘数(multiplier)B相对于一模数(modulus)P的模数乘法(即余数)。控制器200将被乘数A分割为(e+1)个被乘数字元(multiplicand word)AW₀～AW_e，将乘数B分割为(e+1)个乘数字元(multiplier word)BW₀～BW_e，以及将模数P分割为(e+1)个模数字元(modulus word)PW₀～PW_e，其中e≥1。根据(例如个别的)被乘数字元AW₀～AW_e、(e+1)个乘数字元BW₀～BW_e的一乘数字元、(e+1)个进位结果Sc₀～Sc_e及(e+1)个总和结果Ss₀～Ss_e，处理组件PE₀～PE_K-1计算(e+1)个更新进位结果(updated carry result)Mc₀’～Mc_e’以及(e+1)个更新总和结果(updated sum result)Ms₀’～Ms_e’。根据(例如个别的)模数字元PW₀～PW_e、(e+1)个更新进位结果Mc₀’～Mc_e’及(e+1)个更新总和结果Ms₀’～Ms_e’，处理组件PE_K～PE_2K-1计算(e+1)个更新进位结果Sc₀’～Sc_e’以及(e+1)个更新总和结果Ss₀’～Ss_e’。接着，根据更新进位结果Sc₀’～Sc_e’以及更新总和结果Ss₀’～Ss_e’，简化组件210计算结果余数S。也就是说，两步骤方法被使用于计算进位结果及总和结果。因此，关于计算迭代进位结果及总和结果的问题可被解决。

在一实施例中，处理组件PE₀～PE_K-1与处理组件PE_K～PE_2K-1相同。

在一实施例中，被乘数A为一n位整数。在一实施例中，被乘数字元AW₀～AW_e的每个被乘数字元为一w位整数。在一实施例中，根据w，获得(e+1)个被乘数字元AW₀～AW_e的一字元数量(e+1)。举例来说，

其中

为一上取整函数(ceiling function)。需注意的是，根据系统要求，(e+1)个被乘数字元AW₀～AW_e、(e+1)个乘数字元BW₀～BW_e及(e+1)个模数字元PW₀～PW_e的字元数量及位元长度可被改变，但不限于此。

在一实施例中，被乘数字元AW₀～AW_e、更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’之间具有一(一对一)对应。在一实施例中，模数字元PW₀～PW_e’、更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’之间具有一(一对一)对应。

图3为本发明实施例处理组件的平行处理的表格30。详细来说，处理组件PE₀～PE_K-1的一组件数量K不大于(e+1)个被乘数字元AW₀～AW_e的一字元数量(e+1)。也就是说，处理组件PE₀～PE_K-1的一处理组件计算更新进位结果Mc₀’～Mc_e’的至少一更新进位结果及更新总和结果Ms₀’～Ms_e’的至少一总和结果。在一实施例中，根据字元数量(e+1)及组件数量K，获得更新进位结果Mc₀’～Mc_e’的至少一更新进位结果的一数量f及更新总和结果Ms₀’～Ms_e’的至少一总和结果的一数量f。举例来说，处理组件PE₀计算更新进位结果Mc₀’,Mc_K’,…,Mc_f-K’,其中

在一实施例中，根据所述组件数量、对应于处理组件PE₀～PE_K-1的多个组件指标(element index)及对应于被乘数字元AW₀～AW_e的多个字元指标(word index)，处理组件PE₀～PE_K-1计算更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’。在一实施例中，对应到组件指标k的处理组件PE_k计算对应到指标j的一更新进位结果Mc_j’及一更新总和结果Ms_j’，其中组件指标k等于将指标j除以组件数量所获得的余数，即k＝j(mod K)。在一实施例中，根据乘数字元BW_i及(e+1)个被乘数字元AW₀～AW_e的至少两个被乘数字元，处理组件PE₀～PE_K-1的至少两个处理组件平行(例如同时)计算更新进位结果Mc₀’～Mc_e’的至少两个更新进位结果，以及根据乘数字元BW_i及所述至少两个被乘数字元，处理组件PE₀～PE_K-1的至少两个处理组件平行计算更新总和结果Ms₀’～Ms_e’的至少两个更新总和结果。在一实施例中，处理组件PE₀～PE_K-1的至少两个处理组件的数量、更新进位结果Mc₀’～Mc_e’的至少两个更新进位结果的数量及更新总和结果Ms₀’～Ms_e’的至少两个更新总和结果的数量相同。需注意的是，处理组件PE₀～PE_K-1的所述至少两个处理组件可执行至少一次平行计算。举例来说，处理组件PE₀～PE₁平行计算更新进位结果Mc₀’～Mc₁’，以及平行计算更新进位结果Mc_f-K’～Mc_f-K+1’。

在一实施例中，处理组件PE_K～PE_2K-1的一组件数量K不大于(e+1)个模数字元PW₀～PW_e的一字元数量(e+1)。也就是说，处理组件PE_K～PE_2K-1的一处理组件计算更新进位结果Sc₀’～Sc_e’的至少一更新进位结果及更新总和结果Ss₀’～Ss_e’的至少一总和结果。在一实施例中，根据字元数量(e+1)及组件数量K，获得更新进位结果Sc₀’～Sc_e’的至少一更新进位结果的一数量f及更新总和结果Ss₀’～Ss_e’的至少一总和结果的一数量f。举例来说，处理组件PE_K计算更新进位结果Sc₀’,Sc_K’,…,Sc_f-K’,其中

在一实施例中，根据所述组件数量、对应于处理组件PE_K～PE_2K-1的多个组件指标及对应于模数字元PW₀～PW_e的多个字元指标，处理组件PE_K～PE_2K-1计算更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’。在一实施例中，对应到组件指标k的处理组件PE_k计算对应到指标j的一更新进位结果Sc_j’及一更新总和结果Ss_j’，其中组件指标k等于将指标j除以组件数量所获得的余数，即k＝j(mod K)。在一实施例中，根据更新进位结果Mc₀’～Mc_e’的至少两个更新进位结果及更新总和结果Ms₀’～Ms_e’的至少两个更新总和结果，处理组件PE_K～PE_2K-1的至少两个处理组件平行(例如同时)计算更新进位结果Sc₀’～Sc_e’的至少两个更新进位结果，以及平行计算更新总和结果Ss₀’～Ss_e’的至少两个更新总和结果。在一实施例中，处理组件PE_K～PE_2K-1的至少两个处理组件的数量、更新进位结果Sc₀’～Sc_e’的至少两个更新进位结果的数量及更新总和结果Ss₀’～Ss_e’的至少两个更新总和结果的数量相同。需注意的是，处理组件PE_K～PE_2K-1的所述至少两个处理组件可执行至少一次平行计算。例如处理组件PE_K～PE_K+1平行计算更新进位结果Sc₀’～Sc₁’，以及平行计算更新进位结果Sc₂’～Sc₃’。需注意的是，为了简化实施例，图3中的K个处理组件PE₀～PE_K-1及K个处理组件PE_K～PE_2K-1假设为相同，但不限于此。

根据上述说明，处理组件的平行处理的数据流如图4所示。

在一实施例中，根据(例如个别的)乘数字元BW₀～BW_e、被乘数字元AW₀～AW_e，进位结果Sc₀～Sc_e及总和结果Ss₀～Ss_e的(e+1)个移位总和结果(shifted sum result)

处理组件PE₀～PE_K-1计算更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’。在一实施例中，通过将总和结果Ss₀～Ss_e除以一基数(radix)2^w(即一字元的右移位)(例如一基数2^w系统)，移位总和结果

被获得。举例来说，

需注意的是，移位总和结果

的一最高有效移位总和结果(most significant shifted sum result)

为0。实际上，根据至少一延迟组件(delay element)、至少一正反器或至少一暂存器(register)，获得移位总和结果

在一实施例中，根据以下指令，计算更新进位结果Mc₀’～Mc_e’的每一更新进位结果及更新总和结果Ms₀’～Ms_e’的每一更新总和结果：将多个被乘数字元的一被乘数字元AW_j与乘数字元BW_i相乘(multiply)，以获得一乘积(multiplication)；将进位结果Sc₀～Sc_e的一进位结果Sc_j及移位总和结果

的一移位总和结果

与所述乘积相加，以获得一数字；将所述数字除以一基数2^w，以获得一商数(quotient)及一余数(remainder)；决定(determine)所述商数为更新进位结果Mc₀’～Mc_e’的一更新进位结果Mc_j’；以及决定所述余数为更新总和结果Ms₀’～Ms_e’的一更新总和结果Ms_j’。需注意的是，i为一乘数字元指标(multiplier word index)。因此，上述说明可以以下方程式呈现：

AW_j×BW_i+Sc_j+Ss_j+1＝Mc_j′2^w+Ms_j′

(式1)

在一实施例中，处理组件PE₀～PE_K-1还被设定根据更新总和结果Ms₀’～Ms_e’的一最低有效结果(least significant result)Ms₀’及一逆字元(inverse word)，计算一额外商数(extra quotient)q_i。所述逆字元为模数字元PW₀～PW_e的一最低有效字元(leastsignificant word)PW₀的一倒数(inverse)除以一基数2^w的一余数。因此，额外商数q_i的计算可以以下方程式呈现：

(Ms₀′×(-PW₀ ^-1mod 2^w))mod 2^w＝q_i (式2)

在一实施例中，在额外商数q_i及乘数字元BW₀～BW_e的一乘数字元BW_i之间具有一(一对一)对应，其中根据乘数字元BW_i，计算最低有效结果Ms₀’。在一实施例中，在一对应于乘数字元BW_i的一迭代中(例如在所述迭代期间)，处理组件PE₀～PE_K-1计算额外商数q_i一次。在一实施例中，进位结果Sc₀～Sc_e的所有进位结果及总和结果Ss₀～Ss_e的所有总和结果被初始化为0。

在一实施例中，根据(例如个别的)额外商数q_i、模数字元PW₀～PW_e、更新进位结果Mc₀’～Mc_e’的(e+1)个移位更新进位结果(shifted updated carry result)

及更新总和结果Ms₀’～Ms_e’，处理组件PE_K～PE_2K-1计算更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’。在一实施例中，通过将更新进位结果Mc₀’～Mc_e’乘上基数2^w(即一字元的左移位)，获得移位更新进位结果

举例来说，

需注意的是，移位更新进位结果

的最低有效进位结果

为0。实际上，根据至少一延迟组件、至少一正反器或至少一暂存器，获得移位更新进位结果

在一实施例中，根据以下指令，计算更新进位结果Sc₀’～Sc_e’的每一更新进位结果及更新总和结果Ss₀’～Ss_e’的每一更新总和结果：将模数字元PW₀～PW_e的模数字元PW_j与额外商数q_i相乘，以获得一乘积；将移位更新进位结果

的一移位更新进位结果

及更新总和结果Ms₀’～Ms_e’的一总和结果Ms_j’与所述乘积相加，以获得一数字；将所述数字除以基数2^w，以获得一商数及一余数；决定所述商数为更新进位结果Sc₀’～Sc_e’的一更新进位结果Sc_j’；以及决定所述余数为更新总和结果Ss₀’～Ss_e’的一更新总和结果Ss_j’。根据更新总和结果Ms₀’～Ms_e’的一最低有效结果及一逆字元，额外商数q_i被产生，以及所述逆字元为模数字元PW₀～PW_e的一最低有效字元的一倒数除以基数2^w的一余数。因此，上述说明可以以下方程式呈现：

PW_j×q_i+Mc_j-1′+Ms_j′＝Sc_j′2^w+Ss_j′ (式3)

图5为本发明实施例处理组件的示意图。详细来说，处理组件PE₀～PE_K-1的每个处理组件包含有用于将被乘数字元AW_j及乘数字元BW_i相乘的乘法器(multiplier)，以及用于将进位结果Sc_j、移位总和结果

及所述乘积相加的加法器(adder)。也就是说，处理组件PE₀～PE_K-1的每个处理组件执行一乘积累加(multiply and accumulation，MAC)运算。此外，处理组件PE_K～PE_2K-1的每个处理组件包含有用于将模数字元PW_j及额外商数q_i相乘的乘法器，以及用于将移位更新进位结果

总和结果Ms_j’及所述乘积相加的加法器。也就是说，处理组件PE_K～PE_2K-1的每个处理组件执行一乘积累加运算。需注意的是，方程式(式2)中的额外商数q_i的计算可被图5中的乘法器执行，或者可被一额外乘法器执行(未绘示于图5中)。

根据上述说明，以下方程式可被获得：

在一实施例中，在对应于乘数字元BW₀～BW_e的第一字元BW_i的第i个迭代(iteration)中，处理组件PE_K～PE_2K-1计算进位结果Sc₀～Sc_e及总和结果Ss₀～Ss_e。接着，在对应于乘数字元BW₀～BW_e的第二字元(例如下一个字元)BW_i+1的第(i+1)个迭代中，处理组件PE₀～PE_K-1计算更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’，以及处理组件PE_K～PE_2K-1计算更新进位结果更新总和结果Ss₀’～Ss_e’。

根据以上说明，本发明实施例进位结果及总和结果的数据相依性(datadependency)如图6所示。在图6中，被处理组件PE₀执行的运作以C task表示。被处理组件PE₁～PE_K-1执行的运作以D task表示。被处理组件PE_K～PE_2K-1执行的运作以H task表示。需注意的是，为了简化实施例，被乘数字元AW₀～AW₃的数量、乘数字元BW₀～BW₃的数量及处理组件的数量(即4个)假设为相同，但不限于此。

在一实施例中，在处理组件PE_K～PE_2K-1在对应于乘数字元BW₀～BW_e的一最高有效字元BW_e的一最后迭代中计算更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’之后，简化组件210计算结果余数S。在一实施例中，根据对应于更新进位结果Sc₀’～Sc_e’的多个权重(weighting)及对应于更新总和结果Ss₀’～Ss_e’的多个权重，简化组件210计算结果余数S。举例来说，权重2^jw对应于更新进位结果Sc_j’的权重及对应于更新总和结果Ss_j+1’。因此，上述说明可以以下方程式呈现：

图7为本发明实施例模数乘法运算的调度表70。详细来说，在接入(例如读取)在至少一储存装置220中(例如载入、储存)的被乘数字元AW₀～AW_e、进位结果Sc₀～Sc_e及总和结果Ss₀～Ss_e之后，处理组件PE₀～PE_K-1计算更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’。在接入在至少一储存装置220中的模数字元PW₀～PW_e、更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’之后，处理组件PE_K～PE_2K-1计算更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’。在接入在至少一储存装置220中的更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’之后，简化组件210计算结果余数S。此外，在计算更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’之后，处理组件PE₀～PE_K-1在至少一储存装置220的一第一顺位(order)中储存(例如写入)更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’。在计算更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’之后，处理组件PE_K～PE_2K-1在至少一储存装置220的一第二顺位中储存更新进位结果Sc₀’～Sc_e’及更新总和结果Ss₀’～Ss_e’。接着，在计算结果余数S之后，简化组件210在至少一储存装置220中储存结果余数S。需注意的是，根据系统需求，图7中用来储存迭代总和结果及迭代进位结果的顺序可被改变，但不限于此。

上述模数运算装置的运算实施例可总结为图8的流程80，以及可编译为程序代码114。流程80包含有以下步骤：

步骤800：开始。

步骤802：控制器将A分割为AW₀～AW_e，将B分割为BW₀～BW_e，以及将P分割为PW₀～PW_e。

步骤804：控制器将Sc₀～Sc_e及Ss₀～Ss_e初始化为0。

步骤806：根据在第i个外迭代(outer iteration)及第u个内迭代(inneriteration)中的AW_uK+j×BW_i+Sc_uK+j+Ss_uK+j+1，处理组件PE₀～PE_K-1的每个处理组件PE_j计算Mc_uK+j及Ms_uK+j。

步骤808：根据第i个外迭代及第0个内迭代中的Ms₀，处理组件PE₀计算q_i。

步骤810：控制器决定f个内迭代是否完成。若是，执行步骤812，否则执行步骤806。

步骤812：根据在第i个外迭代及第v个内迭代中的PW_vK+j×q_i+Mc_vK+j-1+Ms_vK+j，每个处理组件PE_j计算Sc_vK+j及Ss_vK+j。

步骤814：控制器决定f个内迭代是否完成。若是，执行步骤816，否则执行步骤812。

步骤816：控制器决定(e+1)个外迭代是否完成。若是，执行步骤818，否则执行步骤806。

步骤818：根据Sc₀～Sc_e及Ss₀～Ss_e，简化组件计算S。

步骤820：结束。

流程80的运作细节及变化可参考上述说明，在此不赘述。

图9为本发明实施例模数运算装置90的运作的示意图。在图9中，模数运算装置包含有两个处理组件PE₀～PE₁、一控制器900、一简化组件910及至少一储存装置920。控制器900耦接处理组件PE₀～PE₁、简化组件910及至少一储存装置920。

详细来说，基于蒙哥马利乘法演算法，模数运算装置90被使用在计算一被乘数A及一乘数B相对于一模数P的模数乘法(即余数)。控制器900将被乘数A分割为(e+1)个被乘数字元AW₀～AW_e，将乘数B分割为(e+1)个乘数字元BW₀～BW_e，以及将模数P分割为(e+1)个模数字元PW₀～PW_e，其中e≥1。根据(例如个别的)(e+1)个乘数字元BW₀～BW_e的一乘数字元、被乘数字元AW₀～AW_e、(e+1)个进位结果Sc₀～Sc_e及(e+1)个总和结果Ss₀～Ss_e，处理组件PE₀计算额外商数q_i、(e+1)个更新进位结果Mc₀’～Mc_e’以及(e+1)个更新总和结果Ms₀’～Ms_e’。根据(例如个别的)额外商数q_i、模数字元PW₀～PW_e、更新进位结果Mc₀’～Mc_e’及更新总和结果Ms₀’～Ms_e’，处理组件PE₁被设定计算(e+1)个更新进位结果Sc₀’～Sc_e’以及(e+1)个更新总和结果Ss₀’～Ss_e’。接着，根据更新进位结果Sc₀’～Sc_e’以及更新总和结果Ss₀’～Ss_e’，简化组件910计算结果余数S。也就是说，使用两步骤方法(two-step method)被使用于计算进位结果及总和结果。因此，关于计算迭代进位结果及总和结果的问题可被解决。

在一实施例中，处理组件PE₀与处理组件PE₁为相同的处理组件。

流程90的运作细节及变化可参考上述说明，在此不赘述。

图10为本发明实施例模数运算装置101的运作的示意图。在图10中，模数运算装置101包含有一处理组件PE、一控制器1000、一简化组件1010、至少一储存装置(例如主要内存)1020及多个快取内存1040。控制器1000耦接处理组件PE、简化组件1010、至少一储存装置1020及多个快取内存1040。

详细来说，基于蒙哥马利乘法演算法，模数运算装置101被使用在计算一被乘数A及一乘数B相对于一模数P的模数乘法(即余数)。控制器1000将被乘数A分割为K个被乘数区块(multiplicand block)AB₀～AB_K-1，将乘数B分割为K个乘数区块(multiplier block)BB₀～BB_K-1，以及将模数P分割为K个模数区块(modulus block)PB₀～PB_K-1，其中K≥2。处理组件PE被设定执行指令。所述指令包含有根据被乘数区块AB₀～AB_K-1的被乘数区块AB_j、模数区块PB₀～PB_K-1的模数区块PB_j及乘数区块BB₀～BB_K-1的乘数区块BB_i，计算f个总和结果S_jf～S_(j+1)f-1，其中f≥2。所述指令包含有根据被乘数区块AB₀～AB_K-1的被乘数区块AB_j+1、模数区块PB₀～PB_K-1的模数区块PB_j+1及乘数区块BB_i，计算f个总和结果S_(j+1)f～S_(j+2)f-1及f个延迟总和结果(delayed sum result)L_jf～L_(j+1)f-1。所述指令包含有根据总和结果S_jf～S_(j+1)f-1、延迟总和结果L_jf～L_(j+1)f-1、被乘数区块AB_j、模数区块PB_j及BB₀～BB_K-1的乘数区块BB_i+1，计算f个更新总和结果S_jf’～S_(j+1)f-1’。所述指令包含有根据总和结果S_(j+1)f～S_(j+2)f-1、被乘数区块AB_j+1、模数区块PB_j+1及乘数区块BB_i+1，计算更新总和结果S_(j+1)f’～S_(j+2)f-1’及更新延迟总和结果(updated delayed sum result)L_jf’～L_(j+1)f-1’。接着，简化组件1010设置以根据更新总和结果S_jf’～S_(j+1)f-1’、更新总和结果S_(j+1)f’～S_(j+2)f-1’及更新延迟总和结果L_jf’～L_(j+1)f-1’计算一结果余数S。也就是说，后处理方法(post processing method)被使用于计算进位结果及总和结果。因此，关于计算迭代进位结果及总和结果的问题可被解决。

在一实施例中，根据被乘数区块AB_j+1、模数区块PB_j+1、乘数区块BB_i+1及f个额外商数q_if～q_(i+1)f-1，处理组件PE计算延迟总和结果L_jf～L_(j+1)f-1。

在一实施例中，被乘数A为一n位整数。在一实施例中，被乘数区块AB₀～AB_K-1的每个被乘数区块为一b位整数，以及包含有f个被乘数字元。在一实施例中，每个被乘数字元为一w位整数，即

以及

需注意的是，根据系统要求，被乘数区块AB₀～AB_K-1的、乘数区块BB₀～BB_K-1及模数区块PB₀～PB_K-1的区块数量及位数长度可被改变，但不限于此。

在一实施例中，总和结果S_jf～S_(j+1)f-1、更新总和结果S_jf’～S_(j+1)f-1’及被乘数区块AB_j的f个被乘数字元AW_jf～AW_(j+1)f-1之间具有一(一对一)对应。在一实施例中，总和结果S_(j+1)f～S_(j+2)f-1、更新总和结果S_(j+1)f’～S_(j+2)f-1’及被乘数区块AB_j+1的f个被乘数字元AW_(j+1)f～AW_(j+2)f-1之间具有一(一对一)对应。

在一实施例中，延迟总和结果L_jf～L_(j+1)f-1及总和结果S_jf～S_(j+1)f-1之间具有一对应。在一实施例中，延迟总和结果L_jf～L_(j+1)f-1的数量与总和结果S_jf～S_(j+1)f-1的数量相同。在一实施例中，延迟总和结果L_jf～L_(j+1)f-1的数量小于总和结果S_jf～S_(j+1)f-1的数量。在一实施例中，延迟总和结果L_jf～L_(j+1)f-1及乘数区块BB_i的f个乘数字元BW_if～BW_(i+1)f-1之间具有一对应。在一实施例中，更新延迟总和结果L_jf’～L_(j+1)f-1’及乘数区块BB_i+1的f个乘数字元BW_(i+1)f～BW_(i+2)f-1之间具有一对应。

在一实施例中，模数运算装置101还包含有耦接控制器1000的一载入及储存组件(loading and storing element)，所述载入及储存组件设置以执行指令。所述指令包含有在处理组件计算总和结果S_jf～S_(j+1)f-1之前，从至少一储存装置1020，载入(或复制)被乘数区块AB_j及模数区块PB_j到多个快取内存1040(即被乘数区块AB_j及模数区块PB_j从储存装置被载入，以及被储存在快取内存)。所述指令包含有在处理组件计算总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1之前，从至少一储存装置1020，载入被乘数区块AB_j+1及模数区块PB_j+1到快取内存1040。所述指令包含有在处理组件计算更新总和结果S_jf’～S_(j+1)f-1’之前，从至少一储存装置1020，载入总和结果S_jf～S_(j+1)f-1、延迟总和结果L_jf～L_(j+1)f-1、被乘数区块AB_j及模数区块PB_j到多个快取内存1040。所述指令包含有在处理组件计算更新总和结果S_(j+1)f’～S_(j+2)f-1’及更新延迟总和结果L_jf’～L_(j+1)f-1’之前，从至少一储存装置1020，载入总和结果S_(j+1)f～S_(j+2)f-1、被乘数区块AB_j+1及模数区块PB_j+1到多个快取内存1040。在一实施例中，在接入(例如读取)多个快取内存1040中的(例如被载入的)被乘数区块AB_j之后，处理组件计算总和结果S_jf～S_(j+1)f-1。在接入多个快取内存1040中的被乘数区块AB_j+1之后，处理组件计算总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1。在接入多个快取内存1040中的总和结果S_jf～S_(j+1)f-1、延迟总和结果L_jf～L_(j+1)f-1及被乘数区块AB_j之后，处理组件计算更新总和结果S_jf’～S_(j+1)f-1’。在接入多个快取内存1040中的总和结果S_(j+1)f～S_(j+2)f-1及被乘数区块AB_j+1之后，处理组件计算更新总和结果S_(j+1)f’～S_(j+2)f-1’。也就是说，用于在每一区块中计算的数据(例如被乘数区块的被乘数字元)仅被载入到快取内存一次。换言之，可减少快取未命中(cache miss)的发生次数。

在一实施例中，处理组件执行的指令包含有在计算总和结果S_jf～S_(j+1)f-1之后，在多个快取内存1040中储存(例如写入)总和结果S_jf～S_(j+1)f-1。所述指令包含有在计算总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1之后，在多个快取内存1040中储存总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1。所述指令包含有在计算更新总和结果S_jf’～S_(j+1)f-1’之后，在多个快取内存1040中储存更新总和结果S_jf’～S_(j+1)f-1’。所述指令包含有在计算更新总和结果S_(j+1)f’～S_(j+2)f-1’之后，在多个快取内存1040中储存更新总和结果S_(j+1)f’～S_(j+2)f-1’。在一实施例中，所述载入及储存组件被设定执行的指令。所述指令包含有在处理组件计算总和结果S_jf～S_(j+1)f-1之后，将总和结果S_jf～S_(j+1)f-1储存到至少一储存装置1020中。所述指令包含有在处理组件计算总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1之后，将总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1储存到至少一储存装置1020中。所述指令包含有在处理组件计算更新总和结果S_jf’～S_(j+1)f-1’之后，将更新总和结果S_jf’～S_(j+1)f-1’储存到至少一储存装置1020中。所述指令包含有在处理组件计算更新总和结果S_(j+1)f’～S_(j+2)f-1’之后，将更新总和结果S_(j+1)f’～S_(j+2)f-1’储存到至少一储存装置1020中。

在一实施例中，所述储存及载入组件还执行的指令包含有载入被乘数区块AB_j及模数区块PB_j到多个快取内存1040的一第一快取内存。所述指令包含有当处理组件计算总和结果S_jf～S_(j+1)f-1时，载入被乘数区块AB_j+1及模数区块PB_j+1到多个快取内存1040的一第二快取内存。所述指令包含有当处理组件计算总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1时，载入总和结果S_jf～S_(j+1)f-1、延迟总和结果L_jf～L_(j+1)f-1、被乘数区块AB_j及模数区块PB_j到所述第一快取内存。所述指令包含有当处理组件计算更新总和结果S_jf’～S_(j+1)f-1’时，载入所述总和结果S_(j+1)f～S_(j+2)f-1、被乘数区块AB_j+1及模数区块PB_j+1到所述第二快取内存。

图11为本发明实施例模数乘法运算的调度表110。详细来说，在处理组件计算总和结果S_jf～S_(j+1)f-1之前，所述载入及储存组件载入被乘数区块AB_j及模数区块PB_j到所述第一快取内存。当处理组件计算总和结果S_jf～S_(j+1)f-1时，所述载入及储存组件载入被乘数区块AB_j+1及模数区块PB_j+1到所述第二快取内存。当处理组件计算总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1时，所述载入及储存组件储存(例如被储存的)总和结果S_jf～S_(j+1)f-1到至少一储存装置1020中的所述第一快取内存。在处理组件计算更新总和结果S_jf’～S_(j+1)f-1’之前，所述载入及储存组件载入被乘数区块AB_j及模数区块PB_j到所述第一快取内存。当处理组件计算更新总和结果S_jf’～S_(j+1)f-1’时，所述载入及储存组件载入被乘数区块AB_j+1及模数区块PB_j+1到所述第二快取内存。当处理组件计算更新总和结果S_jf’～S_(j+1)f-1’时，所述载入及储存组件储存总和结果S_(j+1)f～S_(j+2)f-1及延迟总和结果L_jf～L_(j+1)f-1到至少一储存装置1020中的所述第二快取内存。当处理组件计算更新总和结果S_(j+1)f’～S_(j+2)f-1’时，所述载入及储存组件储存更新总和结果S_jf’～S_(j+1)f-1’到至少一储存装置1020中的所述第一快取内存。所述载入及储存组件储存更新总和结果S_(j+1)f’～S_(j+2)f-1’到至少一储存装置1020中的所述第二快取内存。也就是说，在所述模数乘法中，乒乓快取内存(Ping-pong cache memory)(例如乒乓缓冲器(Ping-pong buffer))被使用于计算总和结果。

在一实施例中，处理组件还执行的指令包含有根据被乘数区块AB_j的一最高有效字元(most significant word)AW_(j+1)f-1及乘数区块BB_i，计算f个延迟进位结果(delayedcarry result)H_if～H_(i+1)f-1。所述指令包含有根据最高有效字元AW_(j+1)f-1及乘数区块BB_i+1，计算f个延迟进位结果H_(i+1)f～H_(i+2)f-1。在一实施例中，所述简化组件还被设定执行以下指令：根据更新总和结果S_jf’～S_(j+1)f-1’、更新总和结果S_(j+1)f’～S_(j+2)f-1’、更新延迟总和结果L_jf’～L_(j+1)f-1’，计算结果余数S。在一实施例中，根据被乘数区块AB_j+1的一最低有效字元AW_(j+1)f及乘数区块BB_i，处理组件计算延迟总和结果L_jf～L_(j+1)f-1，以及根据最低有效字元AW_(j+1)f及乘数区块BB_i+1，处理组件计算更新延迟总和结果L_jf’～L_(j+1)f-1’。在一实施例中，根据(例如仅根据)最低有效字元AW_(j+1)f、乘数区块BB_i、模数区块PB_(j+1)f、f个额外商数q_if～q_(i+1)f-1及第一多个暂时进位结果(temporary carry result)，处理组件计算延迟总和结果L_jf～L_(j+1)f-1。根据(例如仅根据)最低有效字元AW_(j+1)f、乘数区块BB_i+1、及第二多个暂时进位结果，处理组件计算更新延迟总和结果L_jf’～L_(j+1)f-1’，其中根据被乘数区块AB_j+1的一最低有效字元AW_(j+1)f+1，计算所述第一多个暂时进位结果及所述第二多个暂时进位结果。举例来说，延迟进位结果H_if～H_(i+1)f-1是根据被乘数区块AB_j的一最高有效字元AW_(j+1)f-1计算所得，处理组件不根据延迟进位结果H_if～H_(i+1)f-1计算延迟总和结果L_jf～L_(j+1)f-1。并且，延迟进位结果H_(i+1)f～H_(i+2)f-1是根据最高有效字元AW_(j+1)f-1计算所得，处理组件不根据延迟进位结果H_if～H_(i+1)f-1计算更新延迟总和结果L_jf’～L_(j+1)f-1’。

在一实施例中，处理组件还执行的指令包含有根据被乘数区块AB_j的一最高有效字元AW_(j+1)f-1及乘数区块BB_i的最高有效字元BW_(i+1)f-1，计算延迟进位结果H_(i+1)f-1；决定延迟进位结果H_(i+1)f-1为总和结果S_jf～S_(j+1)f-1的一最高有效结果(most significantresult)S_(j+1)f-1。所述指令包含有根据被乘数区块AB_j的最高有效字元AW_(j+2)f-1及乘数区块BB_i的最高有效字元BW_(i+1)f-1，计算延迟进位结果H_(i+1)f-1’；以及决定延迟进位结果H_(i+1)f-1’为总和结果S_(j+1)f～S_(j+2)f-1的一最高有效结果S_(j+2)f-1。

在一实施例中，计算更新总和结果S_jf’～S_(j+1)f-1’的指令包含有：根据总和结果S_jf～S_(j+1)f-1、延迟总和结果L_jf～L_(j+1)f-1、被乘数区块AB_j及乘数区块BB_i+1的一第一字元，计算多个暂时总和结果(temporary sum result)；以及根据所述多个暂时总和结果、被乘数区块AB_j及乘数区块BB_i+1的一第二字元，计算更新总和结果S_jf’～S_(j+1)f-1’。在一实施例中，乘数区块BB_i+1的所述第一字元为乘数区块BB_i+1的最低有效字元BW_(i+1)f(即迭代总和结果即迭代延迟总和结果的先前处理)。

在一实施例中，处理组件还执行以下指令：根据总和结果S₀～S_f-1的一最低有效结果S₀、延迟总和结果L₀～L_f-1的一最低有效结果L₀及对应于乘数区块BB_i的一最低有效字元BW_if+u的一迭代中的一逆字元，计算额外商数q_if+u，其中所述逆字元为模数区块PB₀～PB_K-1的一最低有效字元PB₀的一倒数除以一基数2^w的余数。

在一实施例中，额外商数区块qB_i及乘数区块BB₀～BB_K-1的一乘数区块BB_i之间具有一对应，其中根据乘数区块BB_i，计算最低有效结果S_jf。在一实施例中，在对应于乘数区块BB_i的一迭代中，处理组件计算额外商数区块qB_i一次。

根据以上所述，虚拟代码(pseudo code)的一范例如下所示：

Initialize S to 0.

Initialize carry out resultsL,L_n,Ca and Cb to 0.

for(i＝0：k-1)begin

Perform a block_0process.//Process a least significant block.

for(j＝1：k-1)begin

Perform at least one block_1process.//Process other blocks.

end

Determine L_nas L_(k-1)f.

Determine Ca[k-1]as L_n.

Determine Cb[k-2：0]as Ca[k-2：0].

end

//Post process of S+L.

Determine 0 as Cc and Ca[-1].

for(i＝0：k-1)begin

Compute Cc and S_j according to S_j+L_j+Ca[i-1]+Cc.

for(j＝0：f-1)begin

Compute Cc and S_jaccording to S_j+L_j+Cc.

end

Determine Cc+L_n as S_fk.

Ca[k-1]is a(k-1)-th bit of Ca,and Cb[k-2：0]is a segment with a mostsignificant bit(k-2)and a least significant bit 0.

In addition,the block_0 process can be obtained as follows:

Initialize Cb[0]to 0.

for(v＝0：f-1)begin

Compute Cb[0]and S_vaccording to S_v+L_v+Cb[0].

end

for(u＝0：f-1)begin

//X task

Determine AW₀×BW_if+u+S₀as T.

Determine T[w-1：0]as S₀.

Determine T[2w-1：w]as Mc.

Determine S₀×tas q_jf+u.

Determine PW₀×q_if+u+S₀as T′.

Determine T′[2w-1：w]as Sc.

for(v＝1：f-1)begin//Y task

Determine AW_v×BW_if+u+S_v+Mc as T.

Determine T[w-1：0]as S_v.

Determine T[2w-1：w]as Mc.

Determine PW_v×q_if+u+S_v+S_c as T′.

Determine T′[w-1：0]as S_v-1.

Determine T′[2w-1：w]as Sc.

end

Compute Cb[0]and S_f-1 according to Cb[0]+Mc+Sc.

end

In addition,the block_1 process can be obtained as follows:

Initialize Cb[j]to Ca[j-1].

for(v＝0：f-1)begin

Compute Cb[j]and S_jf+v according to S_jf+v+L_jf+v+Cb[j].

end

for(u＝0：f-1)begin

//X task

Determine AW_jf×BW_if+u+S_jf as T.

Determine T[w-1：0]as S_jf.

Determine T[2w-1：w]as Mc.

Determine PW_jf×q_if+u+S_jfas T′.

Determine T′[w-1：0]as L_(j-1)f+u.

Determine T′[2w-1：w]as Sc.

for(v＝1：f-1)begin//Y task

Determine AW_jf+v×BW_if+u+S_jf+v+Mc as T.

Determine T[w-1：0]as S_jf+v.

Determine T[2w-1：w]as Mc.

Determine PW_jf+v×q_if+u+S_jf+v+Sc as T′.Determine T′[w-1：0]as S_jf+v-1.

Determine T′[2w-1：w]as Sc.

end

Compute Cb[j]and S_jf+f-1 according to Cb[j]+Mc+Sc.

end

根据以上所述，本发明实施例进位结果及总和结果的数据相依性如图12所示。需注意的是，被乘数区块AB₀～AB₃的数量及乘数区块BB₀～BB₄的数量不限于此。

详细来说，在一block_0流程中进位结果及总和结果的数据相依性如图13。此外，在一block_1流程中进位结果及总和结果的数据相依性如图14所示。

上述模数运算装置的运算实施例可总结为图15的流程150，以及可编译为程序代码114。流程1500包含有以下步骤：

步骤1500：开始。

步骤1502：控制器将A分割为AB₀～AB_K-1，将B分割为BB₀～BB_K-1，以及将P分割为PB₀～PB_K-1。

步骤1504：在第i个外迭代中，载入及储存组件载入BB_i到快取内存。

步骤1506：在第i个外迭代及第j个内迭代中，载入及储存组件载入L_jf～L_(j+1)f-1到快取内存。

步骤1508：在第i个外迭代及第j个内迭代中，载入及储存组件载入AB_j、PB_j及S_jf～S_(j+1)f-1。

步骤1510：控制器决定j是否为0。若是，执行步骤1512，否则执行步骤1514。

步骤1512：通过执行block_0流程，处理组件计算S₀～S_f-1，以及在第i个外迭代及第j个内迭代中，储存S₀～S_f-1。执行步骤1516。

步骤1514：通过执行block_1流程，处理组件计算S_jf～S_(j+1)f-1及L_(j-1)f～L_jf-1，以及在第i个外迭代及第j个内迭代中，储存S_jf～S_(j+1)f-1及L_(j-1)f～L_jf-1。

步骤1516：控制器决定K个内迭代是否完成。若是，执行步骤1520，否则执行步骤1518。

步骤1518：控制器决定(K-1)个内迭代是否完成。若是，执行步骤1508，否则执行步骤1506。

步骤1520：控制器决定K个外迭代是否完成。若是，执行步骤1522，否则执行步骤1504。

步骤1522：根据S₀～S_Kf-1及L₀～L_(K-1)f-1，通过执行后处理，简化组件计算S。

步骤1524：结束。

图15中的步骤1512的block_0流程可以图16中的流程160来实现。流程160包含有以下步骤：

步骤1600：开始。

步骤1602：控制器初始化Mc为0。

步骤1604：根据在第u个外迭代及第v个内迭代中的AW_v×BW_if+u+S_v+Mc，处理组件计算S_v及Mc。

步骤1606：根据在第u个外迭代及第0个内迭代中的S₀，处理组件计算q_if+u。

步骤1608：控制器决定f个内迭代是否完成。若是，执行步骤1610，否则执行步骤1604。

步骤1610：控制器初始化Sc为0。

步骤1612：根据在第u个外迭代及第v个内迭代中的PW_v×q_if+u+S_v+Sc，处理组件计算S_v及Sc。

步骤1614：控制器决定f个内迭代是否完成。若是，执行步骤1616，否则执行步骤1612。

步骤1616：控制器决定f个外迭代是否完成。若是，执行步骤1618，否则执行步骤1602。

步骤1618：结束。

图15中的步骤1514的block_1流程可以图17中的流程170来实现。流程170包含有以下步骤：

步骤1700：开始。

步骤1702：控制器初始化Mc为0。

步骤1704：根据在第u个外迭代及第v个内迭代中的AW_jf+v×BW_if+u+S_jf+v+Mc，处理组件计算S_v及Mc。

步骤1706：控制器决定f个内迭代是否完成。若是，执行步骤1708，否则执行步骤1704。

步骤1708：控制器初始化Sc为0。

步骤1710：根据在第u个外迭代及第v个内迭代中的PW_jf+v×q_if+u+S_jf+v+Sc，处理组件计算S_v及Sc。

步骤1712：控制器决定f个内迭代是否完成。若是，执行步骤1714，否则执行步骤1710。

步骤1714：控制器决定f个外迭代是否完成。若是，执行步骤1716，否则执行步骤1702。

步骤1716：结束。

流程150、160及170的运作细节及变化可参考上述说明，在此不赘述。

根据以上所述，处理组件的数据流如图18所示。在图18中，t＝-PW₀ ^-1mod2^w。

需注意的是，本发明中提供的模数乘法可视为改进及有效率的蒙哥马利模数乘法。

上述运作所述的「决定(determine)」可被取代为「计算(compute/calculate)」、「获得(obtain)」、「产生(generate)」、「输出(output)」、「使用(use)」、「选择(choose/select)」或「决定(decide)」。上述的术语「根据(according to)」可被取代为「以回应(inresponse to)」。

本领域技术人员当可依本发明的精神加以结合、修饰及/或变化以上所述的实施例。前述的陈述、步骤及/或流程(包含建议步骤)可通过装置实现，装置可为硬件、软件、固件(为硬件装置与计算机指令与数据的结合，且计算机指令与数据属于硬件装置上的只读软件)、电子系统、或上述装置的组合。举例来说，装置可为模数运算装置10。

硬件可为类比电路、数字电路及/或混合式电路。例如，硬件可为特定应用集成电路、现场可程序逻辑闸阵列(Field Programmable Gate Array，FPGA)、可程序化逻辑组件(programmable logic device)、耦接的硬件组件，或上述硬件的组合。在其他实施例中，硬件可为通用处理器(general-purpose processor)、微处理器、控制器、数字信号处理器(digital signal processor，DSP)，或上述硬件的组合。

软件可为程序代码的组合、指令的组合及/或函数(功能)的组合，其储存在一储存单元中，例如一计算机可读取介质(computer-readable medium)。举例来说，计算机可读取介质可为用户识别模块、只读式内存、快闪内存、随机接入内存、光盘只读内存(CD-ROM/DVD-ROM/BD-ROM)、磁带、硬盘、光学数据储存装置、非挥发性内存(non-volatile storageunit)，或上述组件的组合。计算机可读取介质(如储存单元)可以内建地方式耦接在至少一处理器(如与计算机可读取介质整合的处理器)或以外接地方式耦接在至少一处理器(如与计算机可读取介质独立的处理器)。上述至少一处理器可包含有一或多个模块，以执行计算机可读取介质所储存的软件。程序代码的组合、指令的组合及/或函数(功能)的组合可使至少一处理器、一或多个模块、硬件及/或电子系统执行相关的步骤。

电子系统可为系统单晶片(system on chip，SoC)、系统级封装(system inpackage，SiP)、嵌入式计算机(computer on module，CoM)、计算机可程序产品、装置、移动电话、笔记型计算机、平板计算机、电子书、可携式计算机系统，以及模数运算装置10。

根据以上所述，本发明提供处理模数乘法的装置及方法。被模数运算装置执行的运作被定义。两步骤方法被使用在计算进位结果及总和结果。因此，有关计算迭代进位结果及总和结果的问题可被解决。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模数运算装置，用来处理一模数乘法，包含：

一控制器，设置以将一被乘数划分为多个被乘数字元，将一乘数划分为多个乘数字元，以及将一模数划分为多个模数字元；

第一多个处理组件，耦接所述控制器，设置以根据所述多个被乘数字元、所述多个乘数字元的一乘数字元、第一多个进位结果及第一多个总和结果计算第一多个更新进位结果及第一多个更新总和结果，其中所述第一多个处理组件的至少两个处理组件根据所述乘数字元及所述多个被乘数字元的至少两个被乘数字元平行计算所述第一多个更新进位结果的至少两个更新进位结果，以及所述至少两个处理组件根据所述乘数字元及所述至少两个被乘数字元平行计算所述第一多个更新总和结果的至少两个更新总和结果；

第二多个处理组件，耦接所述控制器，设置以根据所述多个模数字元、所述第一多个更新进位结果及所述第一多个更新总和结果计算第二多个更新进位结果及第二多个更新总和结果；以及

一简化组件，耦接所述控制器，设置以根据所述第二多个更新进位结果及所述第二多个更新总和结果计算一结果余数。

2.如权利要求1所述的模数运算装置，其特征在于，所述第二多个处理组件的至少两个处理组件根据所述第一多个更新进位结果的至少两个更新进位结果及所述第一多个更新总和结果的至少两个更新总和结果平行计算所述第二多个更新进位结果的至少两个更新进位结果，以及平行计算所述第二多个更新总和结果的至少两个更新总和结果。

3.如权利要求1所述的模数运算装置，其特征在于，所述第一多个处理组件根据所述多个被乘数字元、所述多个乘数字元、所述第一多个进位结果及所述第一多个总和结果的多个移位总和结果计算所述第一多个更新进位结果及所述第一多个更新总和结果。

4.如权利要求3所述的模数运算装置，其特征在于，根据以下指令，计算所述第一多个更新进位结果的每一更新进位结果及所述第一多个更新总和结果的每一更新总和结果：

将所述多个被乘数字元的一被乘数字元与所述乘数字元相乘，以获得一乘积；

将所述第一多个进位结果的一进位结果及所述多个移位总和结果的一移位总和结果与所述乘积相加，以获得一数字；

将所述数字除以一基数，以获得一商数及一余数；

决定所述商数为所述第一多个更新进位结果的一更新进位结果；以及

决定所述余数为所述第一多个更新总和结果的一更新总和结果。

5.如权利要求1所述的模数运算装置，其特征在于，所述第一多个处理组件还被设定以执行以下指令：

根据所述第一多个更新总和结果的一最低有效结果及一逆字元，计算一额外商数，其特征在于，所述逆字元为所述多个模数字元的一最低有效字元的一倒数除以一基数的一余数。

6.如权利要求1所述的模数运算装置，其特征在于，根据所述多个模数字元、所述第一多个更新进位结果的多个移位更新进位结果及所述第一多个更新总和结果，所述第二多个处理组件计算所述第二多个更新进位结果及所述第二多个更新总和结果。

7.如权利要求6所述的模数运算装置，其特征在于，根据以下指令，计算所述第二多个更新进位结果的每一更新进位结果及所述第二多个更新总和结果的每一更新总和结果：

将所述多个模数字元的一模数字元与一额外商数相乘，以获得一乘积；

将所述多个移位更新进位结果的一移位更新进位结果及所述第一多个更新总和结果的一总和结果与所述乘积相加，以获得一数字；

将所述数字除以一基数，以获得一商数及一余数；

决定所述商数为所述第二多个更新进位结果的一更新进位结果；以及

决定所述余数为所述第二多个更新总和结果的一更新总和结果；

其中根据所述第一多个更新总和结果的一最低有效结果及一逆字元产生所述额外商数，以及所述逆字元为所述多个模数字元的一最低有效字元的一倒数除以一基数的一余数。

8.如权利要求1所述的模数运算装置，其特征在于，：

在对应于所述多个乘数字元的一第一字元的一第一迭代中，所述第二多个处理组件计算所述第一多个进位结果及所述第一多个总和结果；

在对应于所述多个乘数字元的一第二字元的一第二迭代中，所述第一多个处理组件计算所述第一多个更新进位结果及所述第一多个更新总和结果；以及

在所述第二迭代中，所述第二多个处理组件计算所述第二多个更新进位结果及所述第二多个更新总和结果。

9.一种模数运算装置，用来处理一模数乘法，包含：

一控制器，设置以将一被乘数划分为多个被乘数区块，将一乘数划分为多个乘数区块，以及将一模数划分为多个模数区块；

一处理组件，耦接所述控制器，设置以执行以下指令：

根据所述多个被乘数区块的一第一被乘数区块、所述多个乘数区块的一第一乘数区块及所述多个模数区块的一第一模数区块，计算第一多个总和结果；

根据所述多个被乘数区块的一第二被乘数区块、所述第一乘数区块及所述多个模数区块的一第二模数区块，计算第二多个总和结果及多个延迟总和结果；

根据所述第一多个总和结果、所述多个延迟总和结果、所述第一被乘数区块、所述多个乘数区块的一第二乘数区块及所述第一模数区块，计算第一多个更新总和结果；以及

根据所述第二多个总和结果、所述第二被乘数区块、所述第二乘数区块及所述第二模数区块，计算第二多个更新总和结果及多个更新延迟总和结果；以及

一简化组件，耦接所述控制器及所述处理组件，设置以根据所述第一多个更新总和结果、所述第二多个更新总和结果及所述多个更新延迟总和结果计算一结果余数。

10.如权利要求9所述的模数运算装置，其特征在于，所述多个延迟总和结果的一数量与所述第一多个总和结果的一数量相同。

11.如权利要求9所述的模数运算装置，还包含：

至少一储存装置；

多个快取内存；以及

一载入及储存组件，耦接所述控制器，设置以执行以下指令：

在所述处理组件计算所述第一多个总和结果之前，从所述至少一储存装置，载入所述第一被乘数区块及所述第一模数区块到所述多个快取内存；

在所述处理组件计算所述第二多个总和结果及所述多个延迟总和结果之前，从所述至少一储存装置载入所述第二被乘数区块及所述第二模数区块到所述多个快取内存；

在所述处理组件计算所述第一多个更新总和结果之前，从所述至少一储存装置，载入所述第一多个总和结果、所述多个延迟总和结果、所述第一被乘数区块及所述第一模数区块到所述多个快取内存；以及

在所述处理组件计算所述第二多个更新总和结果及所述多个更新延迟总和结果之前，从所述至少一储存装置，载入所述第二多个总和结果、所述第二被乘数区块及所述第二模数区块到所述多个快取内存。

12.如权利要求11所述的模数运算装置，其特征在于，所述载入及储存组件还设置以执行以下指令：

载入所述第一被乘数区块及所述第一模数区块到所述多个快取内存的一第一快取内存；

当所述处理组件计算所述第一多个总和结果时，载入所述第二被乘数区块及所述第二模数区块到所述多个快取内存的一第二快取内存；

当所述处理组件计算所述第二多个总和结果及所述多个延迟总和结果时，载入所述第一多个总和结果、所述多个延迟总和结果、所述第一被乘数区块及所述第一模数区块到所述第一快取内存；以及

当所述处理组件计算所述第一多个更新总和结果时，载入所述第二多个总和结果、所述第二被乘数区块及所述第二模数区块到所述第二快取内存。

13.如权利要求9所述的模数运算装置，其特征在于，所述处理组件还设置以执行以下指令：

根据所述第一被乘数区块的一最高有效字元及所述第一乘数区块，计算第一多个延迟进位结果；以及

根据所述最高有效字元及所述第二乘数区块，计算第二多个延迟进位结果。

14.如权利要求13所述的模数运算装置，其特征在于，所述简化组件还设置以执行以下指令：

根据所述第一多个更新总和结果、所述第二多个更新总和结果、所述多个更新延迟总和结果、所述第一多个延迟进位结果及所述第二多个延迟进位结果，计算所述结果余数。

15.如权利要求9所述的模数运算装置，其特征在于，所述处理组件根据所述第二被乘数区块的一最低有效字元及所述第一乘数区块计算所述多个延迟总和结果，以及所述处理组件根据所述最低有效字元及所述第一乘数区块计算所述多个更新延迟总和结果。

16.如权利要求9所述的模数运算装置，其特征在于，所述处理组件还被设定执行以下指令：

根据所述第一被乘数区块的一最高有效字元及所述第一乘数区块的一最高有效字元，计算一第一延迟进位结果；

决定所述第一延迟进位结果为所述第一多个总和结果的一最高有效结果；

根据所述第二被乘数区块的一最高有效字元及所述第一乘数区块的所述最高有效字元，计算一第二延迟进位结果；以及

决定所述第二延迟进位结果为所述第二多个总和结果的一最高有效结果。

17.如权利要求9所述的模数运算装置，其特征在于，计算所述第一多个更新总和结果的指令包含：

根据所述第一多个总和结果、所述多个延迟总和结果、所述第一被乘数区块及所述第二乘数区块的一第一字元，计算多个暂时总和结果；以及

根据所述多个暂时总和结果、所述第一被乘数区块及所述第二乘数区块的一第二字元，计算所述第一多个更新总和结果。

18.如权利要求17所述的模数运算装置，其特征在于，所述第二乘数区块的所述第一字元为所述第二乘数区块的一最低有效字元。

19.如权利要求9所述的模数运算装置，其特征在于，所述处理组件还设置以执行以下指令：

根据所述第一多个总和结果的一最低有效结果、所述多个延迟总和结果的一最低有效结果及对应于所述第二乘数区块的一最低有效字元的一迭代中的一逆字元，计算一额外商数，其中所述逆字元为所述多个模数区块的一最低有效字元的一倒数除以一基数的一余数。