CN112099761B

CN112099761B - 基于改进的二进制左移模逆算法的装置及其控制方法

Info

Publication number: CN112099761B
Application number: CN202010876884.2A
Authority: CN
Inventors: 李树国; 陆锦鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2022-09-02
Anticipated expiration: 2040-08-27
Also published as: CN112099761A

Abstract

本发明公开了一种基于改进的二进制左移模逆算法的装置及其控制方法，其中，装置包括：第一至第四寄存器、第一至第四加法器、第一至第三移位模块、第一至第三前导零计数模块、多个多路选择器和多个控制信号寄存器，其中，第一至第三前导零计数模块用于对寄存器U、V和第一加法器ADD1的输出进行前导零计数，以对U、V和ADD1的输入进行位数限制，并判断一个循环周期内进行左移的位数；在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移。该装置可以较大幅度提升运算速度，降低运算所需的时间，提升运算效率。

Description

基于改进的二进制左移模逆算法的装置及其控制方法

技术领域

本发明涉及公钥密码算法技术领域，特别涉及一种基于改进的二进制左移模逆算法的装置及其控制方法。

背景技术

公钥密码算法因在密钥分配问题以及“数字签名”问题上的突破和优势，在现代社会的信息安全领域占有重要地位。RSA密码算法、椭圆曲线密码算法均为目前被广泛应用的公钥密码算法。相比于传统的对称密码算法，公钥密码算法因其各种复杂的运算，计算时间较长，且由于安全度要求日益提高，运算的规模也在逐步增大。以RSA密码算法为例，目前需要使用至少1024位长度的密钥才能较好地保证安全性。若安全性要求提高，密钥长度还需要加倍，运算时间则会进一步加长。其中，模逆运算作为RSA密码算法、ECC密码算法的重要过程之一，在整个密码算法运算过程中占了不小的时间比例。提升模逆运算的速度是减少公钥密码算法的计算时间的一条重要途径。

目前，求解素数域上模逆的常见的算法包括扩展欧几里得算法、二进制右移算法和二进制左移算法等。扩展欧几里得算法是计算模逆的一种经典的方法，但因含有除法而对硬件实现不友好；二进制右移算法和二进制左移算法利用移位来代替扩展欧几里得算法中的除法操作，硬件实现上更加方便；另外，在模数为偶数的时候，传统的二进制右移算法无法直接得到模逆的结果，而二进制左移算法则对此没有要求。

因此，基于上述算法设计的电路运算耗时长，效率低，有待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于改进的二进制左移模逆算法的装置，该装置可以较大幅度提升运算速度，降低运算所需的时间，提升运算效率。

本发明的另一个目的在于提出一种基于改进的二进制左移模逆算法的装置的控制方法。

为达到上述目的，本发明一方面实施例提出了一种基于改进的二进制左移模逆算法的装置，包括：第一至第四寄存器，所述第一至第四主操作数寄存器用于存储操作数；第一至第四加法器，所述第一至第四加法器用于执行逻辑操作、移位与指令调用；第一至第三移位模块，所述第一至第三移位模块用于对输入进行有最大位数限制的移位操作，其中，第一移位模块SHIFT1和第二移位模块SHIFT2_L为多位移位的左移模块，第三移位模块SHIFT2_R为多位移位的右移模块；第一至第三前导零计数模块，所述第一至第三前导零计数模块用于对第一主操作数寄存器U、第二主操作寄存器数V和第一加法器ADD1的输出进行前导零计数，以对U、V和ADD1的输入进行位数限制，并判断一个循环周期内进行左移的位数；多个多路选择器，用于输入数据的选择和移位位数的选择；多个控制信号寄存器，所述多个控制信号寄存器用于控制与控制信号寄存器相连的多路选择器的选择，以在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移。

本发明实施例的基于改进的二进制左移模逆算法的装置，设计增加了适用于二进制左移模逆算法的前导零计数模块，在进行移位操作时，相当于把多个周期的操作合并到一个周期内，操作数U,V可以在一个周期内执行多位的左移操作，R和S有可能在一个周期内同时分别发生左移和右移，从而可以较大幅度提升运算速度，降低运算所需的时间，提升运算效率。

另外，根据本发明上述实施例的基于改进的二进制左移模逆算法的装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述第一至第三前导零计数模块进一步用于对任意有符号输入数据的最多八位的前导零计数，输出结果表示可移动的最大位数，其中，前导零代表非负数的前导零，或代表负数的前导一。

进一步地，在本发明的一个实施例中，所述第一至第三前导零计数模块的结构相同，每个前导零计数模块均包括：八位多路选择器，所述八位多路选择器的第一输入端的输入为输入数据从最高位数起除符号位以外的第八位到第一位，所述八位多路选择器的第二输入端的输入为输入数据从最高位数起除符号位以外的第一位到第八位a[n-1:n-8]；第一四位多路选择器和第二四位多路选择器，所述第二四位多路选择器输入数据的符号位与所述八位多路选择器的输入数据的符号位相连，所述第一四位多路选择器的输出端与所述第二四位多路选择器的第二输入端相连；八位前导零计数器LZC8，所述LZC8的输入端的输入为a[n-1:n-8]；非门和四位加法器ADD，所述ADD的第一输入端分别与所述LZC8的输出端和所述第二四位多路选择器的第一输入端相连，所述ADD的第二输入端所述第一四位多路选择器的第一输入端相连，所述ADD的输出端与非门的输入端相连；八位前导一计数器LZC8_neg，所述LZC8_neg的输入端与所述八位多路选择器的第二输入端相连；四位减法器SUB，所述SUB的第一输入端分别与所述ADD的第二输入端、所述第一四位多路选择器的第一输入端和所述LZC8_neg的输出端相连，所述SUB的第二输入端输入为1，所述SUB的输出端与所述第一四位多路选择器的第二输入端相连；或非门，所述或非门的第一输入端的输入为输入数据的第九位到最低位的或运算结果ORa[n-9:0]，所述或非门的第二输入端与所述非门的输出端相连，所述或非门的输出端与所述第一四位多路选择器输入数据的符号位相连。

进一步地，在本发明的一个实施例中，所述多个多路选择器包括：第一多路选择器MUX1，用于选择SHIFT1输入数据；第二多路选择器MUX1_S，用于选择SHIFT1需要移位的位数；第三多路选择器MUX2_L和第四多路选择器MUX2_R，分别用于选择SHIFT2_L和SHIFT2_R的输入数据；第五多路选择器XMUX，用于选择SHIFT2_L和SHIFT2_R需要移位的位数；第六多路选择器MUX3和第七多路选择器MUX4，分别用于选择第二加法器ADD2和第三加法器ADD3的输入数据；第八多路选择器MUXR和第九多路选择器MUXS，分别用于选择第三主操作数寄存器R和第四主操作数寄存器S的输入数据。

进一步地，在本发明的一个实施例中，所述多个控制信号寄存器包括第一至第五控制信号寄存器。

进一步地，在本发明的一个实施例中，所述第一加法器ADD1和第二加法器ADD2均包括信号选择sel_add，以根据sel_add选择的信号实现加减法功能。

进一步地，在本发明的一个实施例中，所述循环周期为完成n位的模逆运算所用的时钟周期数。

进一步地，在本发明的一个实施例中，所述循环周期为0.8n。

为达到上述目的，本发明另一方面实施例提出了一种如上述实施例所述的基于改进的二进制左移模逆算法的装置的控制方法，所述方法用于对所述装置进行控制，以在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移，其中，所述循环周期为完成n位的模逆运算所用的时钟周期数；所述方法包括以下步骤：

输入：p，a；

输出：y，取值范围为[0，p-1]，y为a对于模p的模逆；

步骤S1，U←p，V←a，S←1，m←-1；R、cu、cv和lzs置0；uv、t_pos和t_neg置1；

步骤S2，当t_neg＝1且t_pos＝1重复执行步骤S21至步骤S25：

步骤S21，若tu＝1，则执行步骤S211，否则执行步骤S212；

步骤S211，若d＝0或uv＝0，则执行步骤S2111，否则执行步骤S2112；

步骤S2111，U←U<<lzu，R←R<<lzu；cu←cu+lzu；uv置0；

步骤S213，U←U<<lzu，S←S>>lzu，m←m<<lzu；cu←cu+lzu；

步骤S212，若tv＝1，则执行步骤S2121，否者执行步骤S213；

步骤S2121，若d＝0或uv＝1，则V←V<<lzv，S←S<<lzv；cv←cv+lzv；uv置1；否则执行步骤S2122；

步骤S2123，V←V<<lzv，R←R>>lzv，m←m<<lzv；cv←cv+lzv；

步骤S213，若u_n＝v_n，则“±”←“–”，否则“±”←“+”；

若d＝0，则U←U±V<<lza，R←R±S<<lza；cu←cu+lza；lzs←lza；uv置0；wu置1；更新t_pos，t_neg；否则执行步骤S214；

步骤S214，若uv＝1，则执行步骤S2141，否则执行步骤S215

步骤S2142，U←U±V<<lza，R←R±S，S←S>>lza，m←m<<lza，cu←cu+lza；lzs←0；wu置1；更新t_pos，t_neg；

否则V←V±U<<lza，S←S±R，R←R>>lza，m←m<<lza，cv←cv+lza；lzs←0；wu置0；更新t_pos，t_neg；

步骤S3，若wu＝1，则S←R>>lzs，否则S←S>>lzs；

步骤S4，R←0；

步骤S5，若t_cond＝1，则执行步骤S51，否则执行步骤S52；

步骤S51，若t_neg＝0，则y←R–S；否则y←R+S；

步骤S52，若t_neg＝0，则y←p–S；否则y←p+S；

步骤S6，返回y。

本发明实施例的基于改进的二进制左移模逆算法的装置的控制方法，设计增加了适用于二进制左移模逆算法的前导零计数模块，在进行移位操作时，相当于把多个周期的操作合并到一个周期内，操作数U,V可以在一个周期内执行多位的左移操作，R和S有可能在一个周期内同时分别发生左移和右移，从而可以较大幅度提升运算速度，降低运算所需的时间，提升运算效率。

另外，根据本发明上述实施例的基于改进的二进制左移模逆算法的装置的控制方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，信号d用于判断用于记录U和V的左移次数的变量cu和cv的大小关系，cu和cv相等时d为0，否则为1；信号tu和tv表示U和V是否能在不造成溢出，即不超过±2^n–1的情况下进行左移；t_pos和t_neg为判断循环结束的寄存器变量，当U或V等于2^min(cu,cv)时，t_pos为0，当U或V等于-2^min(cu,cv)时，t_neg为0；lzu、lzv和lza分别表示U，V和U与V相加减的结果的前导零计数；<<和>>符号分别表示左移和右移，+表示加法，-表示减法，←表示将右侧的值赋值给左侧的变量。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的改进的二进制左移模逆算法硬件结构示意图；

图2为根据本发明一个实施例的用于改进的左移模逆算法的前导零计数模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在如今广泛使用的公钥密码算法中，模逆运算是重要的核心运算之一。由于模逆运算的复杂性，其运算效率会较大程度影响到密码算法本身的性能。位宽较大的一些公钥密码算法，其计算时间通常较长。在现有的二进制左移模逆算法的基础上，本发明提出了一种改进的模逆算法，与原算法相比，本发明提出的新算法在运算周期数上进行了优化，提高了算法的效率。

因此，在介绍基于改进的二进制左移模逆算法的装置之前，先对改进的二进制左移模逆算法进行说明，具体如下：

SM2算法是一种椭圆曲线公钥密码算法，在数字签名、公钥加密等领域具有广泛应用。模逆运算是其中的一个关键的运算步骤，但通常其效率较低，从而影响整个SM2算法的效率。对于n位的模逆运算，若使用传统的二进制左移模逆算法，完成计算所用的时钟周期数一般接近2n，而改进后的二进制左移模逆算法理论上可以将该数字降低至0.8n左右。将改进后的二进制左移算法应用于SM2算法中，可较大幅度提升算法的运算速度。

本发明提出的改进的模逆算法在一个周期内进行多位的移位操作，在有较多可连续移位的情况下将会在较大程度上减少时钟周期数。原算法在进行移位操作时，每个循环周期内对操作数U,V只进行一次左移一位的操作，相对应的R或S也只进行一位的左移或右移操作。而改进的算法相当于把多个周期的操作合并到一个周期内，操作数U,V可以在一个周期内执行多位的左移操作，R和S有可能在一个周期内同时分别发生左移和右移，与原算法相比增加了分支，在下面的算法描述中的步骤(2)中可以体现。在硬件实现上，需要适用于二进制左移模逆算法的前导零计数模块用于判断一个周期内可以进行左移的位数，以及支持多位移位的左移和右移模块。

所述改进的二进制左移模逆算法按以下步骤进行，其中信号d用于判断用于记录U和V的左移次数的变量cu和cv的大小关系，cu和cv相等时d为0，否则为1；信号tu和tv表示U和V是否能在不造成溢出(即不超过±2^n–1)的情况下进行左移；t_pos和t_neg为判断循环结束的寄存器变量，当U或V等于2^min(cu,cv)时，t_pos为0，当U或V等于-2^min(cu,cv)时，t_neg为0；lzu,lzv和lza分别表示U,V和U与V相加减的结果的前导零计数；“<<”和“>>”符号分别表示左移和右移：

输入:p,a

输出:y，取值范围为[0,p-1],y为a对于模p的模逆

(1)U←p,V←a,S←1,m←-1；R,cu,cv,lzs置0；uv,t_pos,t_neg置1

(2)当(t_neg＝1)且(t_pos＝1)重复执行

若(tu＝1)则

若(d＝0)或(uv＝0)则

U←U<<lzu,R←R<<lzu；cu←cu+lzu；uv置0

否则，若(|diff|≤lzu)则

U←U<<lzu,R←R<<(lzu–|diff|),S←S>>|diff|,

m←m<<|diff|,cu←cu+lzu；uv置0

否则

U←U<<lzu,S←S>>lzu,m←m<<lzu；cu←cu+lzu

否则，若(tv＝1)则

若(d＝0)或(uv＝1)则

V←V<<lzv,S←S<<lzv；cv←cv+lzv；uv置1

否则，若(|diff|≤lzv)则

V←V<<lzv,S←S<<(lzv–|diff|),R←R>>|diff|,

m←m<<|diff|,cv←cv+lzv；uv置1

否则

V←V<<lzv,R←R>>lzv,m←m<<lzv；cv←cv+lzv

否则

若(u_n＝v_n)则

“±”←“–”；

否则

“±”←“+”

若(d＝0)则

U←(U±V)<<lza,R←(R±S)<<lza；cu←cu+lza；

lzs←lza；uv置0；wu置1；更新t_pos,t_neg

否则，若(uv＝1)则

若(|diff|≤lza)则

U←(U±V)<<lza,R←(R±S)<<(lza–|diff|),

S←S>>|diff|,m←m<<|diff|

cu←cu+lza；lzs←(lza–|diff|)；uv置0；

wu置1；更新t_pos,t_neg

否则

U←(U±V)<<lza,R←R±S,S←S>>lza,

m←m<<lza,cu←cu+lza；lzs←0；

wu置1；更新t_pos,t_neg

否则

若(|diff|≤lza)则

V←(V±U)<<lza,S←(S±R)<<(lza–|diff|),

R←R>>|diff|,m←m<<|diff|

cv←cv+lza；lzs←(lza–|diff|)；uv置1；

wu置0；更新t_pos,t_neg

否则

V←(V±U)<<lza,S←S±R,R←R>>lza,

m←m<<lza,cv←cv+lza；lzs←0；

wu置0；更新t_pos,t_neg

(3)若(wu＝1)则

S←R>>lzs

否则

S←S>>lzs

(4)R←0

(5)若(t_cond＝1)则

若(t_neg＝0)则

y←R–S

否则

y←R+S

否则

若(t_neg＝0)则

y←p–S

否则

y←p+S

(6)返回y。

正是基于上述改进的二进制左移模逆算法，本发明提出了一种基于改进的二进制左移模逆算法的装置。

下面参照附图描述根据本发明实施例提出的基于改进的二进制左移模逆算法的装置及其控制方法，首先将参照附图描述根据本发明实施例提出的基于改进的二进制左移模逆算法的装置。

图1是本发明一个实施例的基于改进的二进制左移模逆算法的装置的结构示意图。

如图1所示，该基于改进的二进制左移模逆算法的装置包括：第一至第四寄存器、第一至第四加法器、第一至第三移位模块、第一至第三前导零计数模块、多个多路选择器和多个控制信号寄存器。

其中，所述第一至第四主操作数寄存器用于存储操作数；所述第一至第四加法器用于执行逻辑操作、移位与指令调用；所述第一至第三移位模块用于对输入进行有最大位数限制的移位操作，其中，第一移位模块SHIFT1和第二移位模块SHIFT2_L为多位移位的左移模块，第三移位模块SHIFT2_R为多位移位的右移模块；所述第一至第三前导零计数模块用于对第一主操作数寄存器U、第二主操作寄存器数V和第一加法器ADD1的输出进行前导零计数，以对U、V和ADD1的输入进行位数限制，并判断一个循环周期内进行左移的位数；多个多路选择器用于输入数据的选择和移位位数的选择；，所述多个控制信号寄存器用于控制与控制信号寄存器相连的多路选择器的选择，以在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移。

具体而言，如图1所示，U、V、R和S表示算法所用到的四个主操作数寄存器，P表示输入的模数p；ADD1、ADD2、ADD3和ADD4为加法器，其中ADD1和ADD2可实现加减法功能，由sel_add信号选择，SUB为减法器；LZC_U、LZC_V和LZC_A均表示前导零计数模块，其实例的具体结构如图2所示，用于对U，V和加法器ADD1的输出进行前导零计数，实际应用时其输入有位数限制；SHIFT1、SHIFT2_L和SHIFT2_R表示移位模块，前二者为左移，后者为右移，用于对输入进行有最大位数限制的移位操作；含MUX字样的模块表示多路选择器，其中MUX1用于选择SHIFT1输入数据，MUX1_S用于选择SHIFT1需要移位的位数，MUX2_L和MUX2_R分别用于选择SHIFT2_L和SHIFT2_R的输入数据，XMUX用于选择SHIFT2_L和SHIFT2_R需要移位的位数，MUX3和MUX4分别用于选择ADD2和ADD3的输入数据，MUXR和MUXS分别用于选择寄存器R和S的输入数据；cu、cv、lzs、uv和wu表示算法中所用到的控制信号寄存器。其中，cu、cv、lzs、uv和wu分别表示第一至第五控制信号寄存器

具体而言，如图2所示，图2为适用于本发明提出的改进的二进制左移模逆算法的前导零计数模块的结构图，该结构用于对任意有符号输入数据的最多八位的“前导零”计数，输出结果表示可移动的最大位数。“前导零”既代表非负数的前导零，又代表负数的前导一。其中LZC8表示八位前导零计数器，LZC8_neg表示八位前导一计数器，分别用于应对非负数和负数的输入数据；ADD和SUB分别表示四位的加法器和减法器，add[3]表示加法器输出的最高位；MUX1表示八位的多路选择器，MUX2和MUX3表示四位的多路选择器；sign bit表示输入数据的符号位，a[n-1:n-8]表示输入数据从最高位数起除符号位以外的第一位到第八位，a[n-8:n-1]表示前者的倒序排列，OR(a[n-9:0])表示输入数据的第九位到最低位的或运算结果。

根据本发明实施例提出的基于改进的二进制左移模逆算法的装置，设计增加了适用于二进制左移模逆算法的前导零计数模块，在进行移位操作时，相当于把多个周期的操作合并到一个周期内，操作数U,V可以在一个周期内执行多位的左移操作，R和S有可能在一个周期内同时分别发生左移和右移，从而可以较大幅度提升运算速度，降低运算所需的时间，提升运算效率。

其次本发明实施例还提出了一种基于改进的二进制左移模逆算法的装置的控制方法，所述方法用于对所述装置进行控制，以在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移，其中，所述循环周期为完成n位的模逆运算所用的时钟周期数；所述方法包括以下步骤：

输入：p，a；

输出：y，取值范围为[0，p-1]，y为a对于模p的模逆；

步骤S2，当t_neg＝1且t_pos＝1重复执行步骤S21至步骤S25：

步骤S21，若tu＝1，则执行步骤S211，否则执行步骤S212；

步骤S2111，U←U<<lzu，R←R<<lzu；cu←cu+lzu；uv置0；

步骤S213，U←U<<lzu，S←S>>lzu，m←m<<lzu；cu←cu+lzu；

步骤S212，若tv＝1，则执行步骤S2121，否者执行步骤S213；

步骤S2123，V←V<<lzv，R←R>>lzv，m←m<<lzv；cv←cv+lzv；

步骤S214，若uv＝1，则执行步骤S2141，否则执行步骤S215

步骤S3，若wu＝1，则S←R>>lzs，否则S←S>>lzs；

步骤S4，R←0；

步骤S5，若t_cond＝1，则执行步骤S51，否则执行步骤S52；

步骤S51，若t_neg＝0，则y←R–S；否则y←R+S；

步骤S52，若t_neg＝0，则y←p–S；否则y←p+S；

步骤S6，返回y。

需要说明的是，前述对基于改进的二进制左移模逆算法的装置实施例的解释说明也适用于该实施例的基于改进的二进制左移模逆算法的装置的控制方法，此处不再赘述。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于改进的二进制左移模逆算法的装置，其特征在于，包括：

第一至第四寄存器，所述第一至第四主操作数寄存器用于存储操作数；

第一至第四加法器，所述第一至第四加法器用于执行逻辑操作、移位与指令调用；

第一至第三移位模块，所述第一至第三移位模块用于对输入进行有最大位数限制的移位操作，其中，第一移位模块SHIFT1和第二移位模块SHIFT2_L为多位移位的左移模块，第三移位模块SHIFT2_R为多位移位的右移模块；

第一至第三前导零计数模块，所述第一至第三前导零计数模块用于对第一主操作数寄存器U、第二主操作寄存器数V和第一加法器ADD1的输出进行前导零计数，以对U、V和ADD1的输入进行位数限制，并判断一个循环周期内进行左移的位数；

多个多路选择器，用于输入数据的选择和移位位数的选择；以及

多个控制信号寄存器，所述多个控制信号寄存器用于控制与控制信号寄存器相连的多路选择器的选择，以在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移，其中，

所述第一至第三前导零计数模块的结构相同，每个前导零计数模块均包括：

八位多路选择器，所述八位多路选择器的第一输入端的输入为输入数据从最高位数起除符号位以外的第八位到第一位，所述八位多路选择器的第二输入端的输入为输入数据从最高位数起除符号位以外的第一位到第八位a[n-1:n-8]；

第一四位多路选择器和第二四位多路选择器，所述第二四位多路选择器输入数据的符号位与所述八位多路选择器的输入数据的符号位相连，所述第一四位多路选择器的输出端与所述第二四位多路选择器的第二输入端相连；

八位前导零计数器LZC8，所述LZC8的输入端的输入为a[n-1:n-8]；

非门和四位加法器ADD，所述ADD的第一输入端分别与所述LZC8的输出端和所述第二四位多路选择器的第一输入端相连，所述ADD的第二输入端所述第一四位多路选择器的第一输入端相连，所述ADD的输出端与非门的输入端相连；

八位前导一计数器LZC8_neg，所述LZC8_neg的输入端与所述八位多路选择器的第二输入端相连；

四位减法器SUB，所述SUB的第一输入端分别与所述ADD的第二输入端、所述第一四位多路选择器的第一输入端和所述LZC8_neg的输出端相连，所述SUB的第二输入端输入为1，所述SUB的输出端与所述第一四位多路选择器的第二输入端相连；

或非门，所述或非门的第一输入端的输入为输入数据的第九位到最低位的或运算结果ORa[n-9:0]，所述或非门的第二输入端与所述非门的输出端相连，所述或非门的输出端与所述第一四位多路选择器输入数据的符号位相连。

2.根据权利要求1所述的装置，其特征在于，所述第一至第三前导零计数模块进一步用于对任意有符号输入数据的最多八位的前导零计数，输出结果表示可移动的最大位数，其中，前导零代表非负数的前导零，或代表负数的前导一。

3.根据权利要求2所述的装置，其特征在于，所述多个多路选择器包括：

第一多路选择器MUX1，用于选择SHIFT1输入数据；

第二多路选择器MUX1_S，用于选择SHIFT1需要移位的位数；

第三多路选择器MUX2_L和第四多路选择器MUX2_R，分别用于选择SHIFT2_L和SHIFT2_R的输入数据；

第五多路选择器XMUX，用于选择SHIFT2_L和SHIFT2_R需要移位的位数；

第六多路选择器MUX3和第七多路选择器MUX4，分别用于选择第二加法器ADD2和第三加法器ADD3的输入数据；

第八多路选择器MUXR和第九多路选择器MUXS，分别用于选择第三主操作数寄存器R和第四主操作数寄存器S的输入数据。

4.根据权利要求1所述的装置，其特征在于，所述多个控制信号寄存器包括第一至第五控制信号寄存器。

5.根据权利要求1所述的装置，其特征在于，所述第一加法器ADD1和第二加法器ADD2均包括信号选择sel_add，以根据sel_add选择的信号实现加减法功能。

6.根据权利要求1所述的装置，其特征在于，所述循环周期为完成n位的模逆运算所用的时钟周期数。

7.根据权利要求6所述的装置，其特征在于，所述循环周期为0.8n。

8.一种如权利要求1-7任意一项所述的基于改进的二进制左移模逆算法的装置的控制方法，其特征在于，所述方法用于对所述装置进行控制，以在进行移位操作时，在每个循环周期内对U和V的操作数执行多位的左移操作，对第三主操作数寄存器R和第四主操作数寄存器S的操作数在一个周期内同时分别发生左移和右移，其中，所述循环周期为完成n位的模逆运算所用的时钟周期数；所述方法包括以下步骤：

输入：p，a；

输出：y，取值范围为[0，p-1]，y为a对于模p的模逆；

步骤S2，当t_neg＝1且t_pos＝1重复执行步骤S21至步骤S25：

步骤S21，若tu＝1，则执行步骤S211，否则执行步骤S212；

步骤S2111，U←U<<lzu，R←R<<lzu；cu←cu+lzu；uv置0；

步骤S213，U←U<<lzu，S←S>>lzu，m←m<<lzu；cu←cu+lzu；

步骤S212，若tv＝1，则执行步骤S2121，否者执行步骤S213；

步骤S2123，V←V<<lzv，R←R>>lzv，m←m<<lzv；cv←cv+lzv；

步骤S214，若uv＝1，则执行步骤S2141，否则执行步骤S215

步骤S3，若wu＝1，则S←R>>lzs，否则S←S>>lzs；

步骤S4，R←0；

步骤S5，若t_cond＝1，则执行步骤S51，否则执行步骤S52；

步骤S51，若t_neg＝0，则y←R–S；否则y←R+S；

步骤S52，若t_neg＝0，则y←p–S；否则y←p+S；

步骤S6，返回y。

9.根据权利要求8所述的方法，其特征在于，信号d用于判断用于记录U和V的左移次数的变量cu和cv的大小关系，cu和cv相等时d为0，否则为1；信号tu和tv表示U和V是否能在不造成溢出，即不超过±2^n–1的情况下进行左移；t_pos和t_neg为判断循环结束的寄存器变量，当U或V等于2^min(cu,cv)时，t_pos为0，当U或V等于-2^min(cu,cv)时，t_neg为0；lzu、lzv和lza分别表示U，V和U与V相加减的结果的前导零计数；<<和>>分别表示左移和右移，+表示加法，-表示减法，←表示将右侧的值赋值给左侧的变量。