CN104579656A

CN104579656A - 一种椭圆曲线公钥密码sm2算法的硬件加速协处理器

Info

Publication number: CN104579656A
Application number: CN201410851308.7A
Authority: CN
Inventors: 郭晓; 姚全斌; 荣欣; 蒋安平; 宗宇
Original assignee: Beijing Microelectronic Technology Institute; Mxtronics Corp
Current assignee: Beijing Microelectronic Technology Institute; Mxtronics Corp
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-04-29

Abstract

一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，结合SM2算法实际，包括控制模块、寄存器堆、模乘模块、模逆模块、模加减模块、SM3模块。其中控制模块，接收主处理器发送的SM3运算指令、模乘运算指令、模逆运算指令或模加减运算指令，并控制寄存器堆将数据送至对应运算模块，运算模块按照运算指令进行运算后计算结果送至寄存器堆存储，寄存器接收并存储计算结果。本发明中每个模块只需要完成自己特定的工作即可通过协同工作实现SM2密码算法，具有模块化优势，另外本发明灵活性高，提高了整体芯片的可靠性和可扩展性，节省了硬件资源。

Description

一种椭圆曲线公钥密码SM2算法的硬件加速协处理器

技术领域

本发明涉及一种椭圆曲线公钥密码SM2算法所需的核心运算单元，特别是一种椭圆曲线公钥密码SM2算法的硬件加速协处理器。

背景技术

2010年12月17日，国家密码管理局公布了SM2椭圆曲线公钥密码算法，然后在要求在2011年7月后投入运行并使用公钥密码的信息系统中应使用SM2椭圆曲线密码算法，并为现有基于RSA算法的电子认证系统、密钥管理系统、应用系统进行升级改造，在我国商用密码体系中使用SM2椭圆曲线密码算法来替换RSA算法。

随着我国信息技术的发展，物联网进程逐渐加快，信息安全工作显得尤为重要，国家密码管理局颁布的国密算法具有安全性和制度性两方面优势。SM2算法是椭圆曲线算法(ECC)的一种，属于公钥密码算法，具有椭圆曲线密码算法的多种优点，同时也是一种更加先进、更加复杂的算法。因此，设计一个SM2算法硬件加速协处理器，作为IP核集成到安全SoC芯片中，对于在实际应用中发挥椭圆曲线密码算法的灵活性、安全性和高运算速度都具有重要的意义。椭圆曲线密码算法着重关注以下四个性能指标:

(1)速度，运算速度是评价椭圆曲线密码算法实现方案的一个重要指标。一般来说，运算速度与实现代价是矛盾的；(2)实现代价：实现代价包括存储器占用空间、芯片面积、功率消耗等。在计算资源受限的应用场合，如智能卡、RFID等，实现代价是首要考虑的指标；(3)安全性：密码算法的实现有别于其他程序或芯片的设计，为信息提供保护的密码模块本身必须是安全的，防护措施的施行将影响实现模块的速度与实现代价；(4)灵活性：由于椭圆曲线密码体制标准众多、不同安全级别下的椭圆曲线参数可选择性强，因此椭圆曲线算法实现的灵活性近些年成为研究的热点。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种椭圆曲线公钥密码SM2算法的硬件加速协处理器。

本发明的技术解决方案是：一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，包括控制模块、寄存器堆、模乘模块、模逆模块、模加减模块、SM3模块，其中

控制模块，接收主处理器发送的一级指令后进行译码并判断，如果是存储指令，则将当前数据存储到寄存器堆中，如果是SM3运算指令，则控制寄存器堆按照SM3运算指令将数据读出并送至SM3模块，如果是点加或倍点运算指令，则将点加或倍点运算指令进行译码得到模乘运算指令或模逆运算指令或模加减运算指令，对于模乘运算指令，则按照模乘运算指令控制寄存器堆将数据读出并送至模乘运算模块和寄存器堆进行模乘运算，对于模逆运算指令，则按照模逆运算指令控制寄存器堆将数据读出并送至模逆运算模块和寄存器堆进行模逆运算，对于模加减运算指令，则按照模加减运算指令控制寄存器堆将数据读出并送至模加减模块和寄存器堆进行模加减运算；所述一级指令包括存储指令、SM3运算指令、点加或倍点运算指令；

寄存器堆，预先存储待模乘运算的数据m和n、待模逆运算的数据x、待模加减运算的数据z和v、消息分组B⁽ⁱⁱ⁾、模N_j、模数p、模N_j参数q；按照模乘运算指令将域选择控制信号field、模N_j，模N_j参数q送至模乘运算模块，接收并存储模乘运算模块发送的模乘计算结果，将模乘计算结果中的c_j送至模乘运算模块用于模乘运算；按照模逆运算指令将域选择控制信号field、加减控制信号sel、待模逆运算的数据x、模数p送至模逆运算模块，接收并存储模逆运算模块发送的模逆计算结果；按照模加减运算指令将域选择控制信号field、加减选择控制信号sel、模数p和待模加减运算的数据z和v送至模加减模块，接收并存储模加减模块发送的模加减计算结果；按照SM3运算指令将消息分组B⁽ⁱ⁾送至SM3模块，接收并存储SM3模块发送的SM3计算结果；

模乘模块，接收寄存器堆发送的域选择控制信号field、模N_j，模N_j参数q后进行模乘运算并将计算得到的模乘计算结果送至寄存器堆存储；

模逆模块，接收寄存器堆发送的域选择控制信号field、加减控制信号sel、待模逆运算的数据x、模数p后进行模逆运算并将摸逆计算结果送至寄存器堆存储；

模加减模块，接受寄存器堆发送的域选择控制信号field、加减选择控制信号sel、模数p和待模加减运算的数据z和v后进行模加减运算并将模加减计算结果送至寄存器堆存储；

SM3模块，接收寄存器堆发送的消息分组B⁽ⁱⁱ⁾后进行SM3运算并将计算得到SM3计算结果送至寄存器堆存储。

所述的模乘模块包括第一控制单元、运算处理单元A、运算处理单元B、运算处理单元C、运算处理单元D、运算处理单元E，其中

第一控制单元，接收寄存器堆发送的待模乘运算的数据m和n、模N_j、模N_j参数q、域选择控制信号field，使用计算得到a_i、b_j，令i＝0并判断，若i小于等于7，将a_i、b_j送至运算处理单元A计算得到c₀和T_i，接收运算处理单元A发送的c₀和T_i并送至运算处理单元B更新c₀直至i大于7；将a_i、b_j和T_i送至运算处理单元C，令i＝0，j＝1并判断，若i小于等于7，调用运算处理单元C计算sum数值，并接收运算处理单元C发送的sum后与上一外层循环的c_j一起送至运算处理单元D计算c_j且j＝j+1，判断j，若j小于等于7，则重复调用运算处理单元C计算sum数值，并接收运算处理单元C发送的sum后与上一外层循环的c_j一起送至运算处理单元D计算c_j且j＝j+1，直至j大于7后i＝i+1并判断，若i小于等于7，则重复调用运算处理单元C计算sum数值，并接收运算处理单元C发送的sum后与c_j一起送至运算处理单元D计算c_j且j＝j+1，判断j，若j小于等于7，则重读调用运算处理单元C计算sum数值，并接收运算处理单元C发送的sum后与上一外层循环的c_j一起送至运算处理单元D计算c_j且j＝j+1，直至j大于7后i＝i+1直至i大于7，接收运算处理单元C发送的c_j，得到{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}，若field＝1，则将{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}送至运算处理单元E并接收其发送的计算结果，若field＝0，则将{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}作为计算结果，将计算结果输出并送至寄存器堆存储，其中上一层外循环表示i的循环，当i＝1时，其上一层外循环的c_j为c₀；

运算处理单元A，接收第一控制单元发送的a_i、b_j、c₀、q，计算a_ib₀+c₀并赋给c₀，计算qc₀并赋值给T_i，将c₀、T_i送至第一控制单元，其中c₀初始值为0；

运算处理单元B，接收第一控制单元发送的c₀、T_i，接收寄存器堆发送的模N₀，将T_iN₀+c₀赋给c₀；

运算处理单元C，接收第一控制单元发送a_i、b_j和T_i，接收寄存器堆发送的模N_j，计算a_ib_j+T_iN_j并赋给sum后送至第一控制单元；

运算处理单元D，接收第一控制单元发送的sum值，接收寄存器堆发送的上一外层循环的c_j，进行sum+c_j计算后将结果赋给c_j并送至第一控制单元；

运算处理单元E，接收第一控制单元发送的{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}接收寄存器堆发送的模N_j，将{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}与N_j进行比较，若{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}>N_j，则将C＝{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}-N_j作为模乘计算结果，否则将{c₇、c₆、c₅、c₄、c₃、c₂、c₁、c₀}作为计算结果，将模乘计算结果送至寄存器堆存储。

所述的模逆运算模块包括预计算单元、第二控制单元、双域加减法器计算单元，其中

预计算单元，接收模数p并对模数p进行判断，输出模数p的有效比特位数记为n，若p＝0，则输出n＝0至第二控制单元，若p不等于0，则将p右移一位并n＝n+1，如果此时p等于0，则输出n＝1至第二控制单元，如果此时p不等于0，继续将p的右移一位并n＝n+1，直到p等于0并输出此时的n至第二控制单元，将模数p送至双域加减法器计算单元；所述n初始值为0；

第二控制单元，接收预计算单元发送的模数p的有效比特位数n并将其作为使用Montgomery模逆算法计算的判断条件，接收域选择控制信号field、加减控制信号sel并进行判断，当域选择控制信号field＝1且加减控制信号sel＝1时，从寄存器堆读取待模逆运算的数据x送至双域加减法器计算单元进行素数域下的加法计算；当域选择控制信号field＝1且加减控制信号sel＝0时，从寄存器堆中读取待模逆运算的数据x送至双域加减法器计算单元进行素数域下的减法计算；当域选择控制信号field＝0且加减控制信号sel＝1时，从寄存器堆中读取待模逆运算的数据x送至双域加减法器计算单元进行二进制下的加法计算；当域选择控制信号field＝0且加减控制信号sel＝0时，从寄存器堆中读取待模逆运算的数据x送至双域加减法器计算单元进行二进制下的减法计算；将n送至双域加减法器计算单元；

双域加减法器计算单元，接收预计算单元发送的模数p，接收控制单元发送的n，当域选择控制信号field＝1且加减控制信号sel＝1时，接收第二控制单元发送的待模逆运算的数据x使用Montgomery模逆算法进行素数域下的加法计算，将模逆计算结果输出并送至寄存器堆；当域选择控制信号field＝1且加减控制信号sel＝0时，接收第二控制单元发送的待模逆运算的数据x，使用Montgomery模逆算法进行素数域下的减法计算，将模逆计算结果输出并送至寄存器堆；当域选择控制信号field＝0，接收第二控制单元发送的待模逆运算的数据x使用Montgomery模逆算法进行异或运算，将模逆计算结果输出并送至寄存器堆。

所述的模加减运算模块包括双域加减法器计算单元、第三控制单元，其中

第三控制单元，接收域选择控制信号field与加减控制信号sel并进行判断，当域选择控制信号field＝1且加减控制信号sel＝1时，从寄存器堆读取待模加减运算的数据z和v送至双域加减法器计算单元进行素数域下的加法计算；当域选择控制信号field＝1且加减控制信号sel＝0时，从寄存器堆中读取待模加减运算的数据z和v送至双域加减法器计算单元进行素数域下的减法计算；当域选择控制信号field＝0且加减控制信号sel＝1时，从寄存器堆中读取待模加减运算的数据z和v送至双域加减法器计算单元进行二进制下的加法计算；当域选择控制信号field＝0且加减控制信号sel＝0时，从寄存器堆中读取待模加减运算的数据z和v送至双域加减法器计算单元进行二进制下的减法计算；

双域加减法器计算单元，接收寄存器堆发送的模数p，当域选择控制信号field＝1且加减控制信号sel＝1时，接收第三控制单元发送的待模加减运算的数据z和v进行素数域下的加法计算得到s，将s与模数p进行对比，若s小于p，则将s作为计算结果输出并送至寄存器堆，否则将s-p作为计算结果输出并送至寄存器堆；当域选择控制信号field＝1且加减控制信号sel＝0时，接收第三控制单元发送的待模加减运算的数据z和v，然后进行素数域下的减法计算得到s，若s大于零，则将s作为模加减计算结果输出并送至寄存器堆，否则将s+p作为模加减计算结果输出至寄存器堆；当域选择控制信号field＝0时，接收第三控制单元发送的待模加减运算的数据z和v进行异或运算，将模加减计算结果输出并送至寄存器堆。

所述的SM3模块包括消息扩展单元、压缩单元、其中

消息扩展单元，接收寄存器堆发送的消息分组B⁽ⁱⁱ⁾，ii＝0,1…n，后将其划分为16个字W₀，W₁，…，W₁₅，并送至寄存器堆，令jj＝16并判断，如果jj小于等于67，则W_jj＝P₁(W_jj-16⊕W_jj-9⊕(W_jj-3<<15))⊕(W_jj-13<<7)⊕W_jj-6且jj＝jj+1直至jj大于67，令jj＝0并判断，如果jj小于等于63，则W′_jj＝W_jj⊕W_jj+4且jj＝jj+1，直到jj大于63，将计算得到的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃送至压缩单元；

压缩单元，接收消息扩展单元发送的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃，同时选取八个字寄存器，分别记为A、B、C、D、E、F、G、H且A、B、C、D、E、F、G、H的拼接结果记为ABCDEFGH＝V⁽ⁱⁱ⁾，令jj＝0并判断，若jj小于等于63，则SS1＝((A<<<12)+E+(T_jj<<<jj))<<<7，SS2＝SS1⊕(A<<<12)，TT1＝FF_jj(A,B,C)+D+SS2+W_jj’，TT2＝GG_jj(E,F,G)+H+SS1+W_jj，然后将C字寄存器数值赋予字寄存器D、将字寄存器G数值赋予字寄存器H、字寄存器A数值赋予字寄存器B、将B<<<9数值赋予字寄存器C、将F<<<19数值赋予字寄存器G、字寄存器A数值赋予字寄存器B、字寄存器E数值赋予字寄存器F、将TT1赋予字寄存器A、将P0(TT2)赋予字寄存器E，同时jj＝jj+1，直至jj大于63，然后进行计算V⁽ⁱⁱ⁺¹⁾＝ABCDEFGH⊕V⁽ⁱⁱ⁾(ii＝0,1…n-1)，若0<ii<n-1，则获取新的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃后重复执行上述计算，直至jj大于63，然后进行V⁽ⁱⁱ⁺¹⁾＝ABCDEFGH⊕V⁽ⁱⁱ⁾直至ii＝n-1，若ii＝n-1，则将V⁽ⁱⁱ⁺¹⁾作为B⁽ⁱⁱ⁾的SM3运算结果，最终得B⁽ⁱⁱ⁾，ii＝0,1…n的SM3计算结果输出并送至寄存器堆存储，其中，V⁽ⁱⁱ⁾初始值为V⁽⁰⁾＝7380166f 4914b2b9 172442d7 da8a0600 a96f30bc163138aa e38dee4d b0fb0e4e，<<<为左移k比特运算，FF_jj和GG_jj分别是布尔函数，表达式为

P₀、P₁是置换函数，表达式为

\begin{matrix} P_{0} (X) = X &CirclePlus; (X < < < 9) &CirclePlus; (X < < < 17) \\ P_{1} (X) = X &CirclePlus; (X < < < 15) &CirclePlus; (X < < < 23) \end{matrix},

Tjj为常量，表达式为

T_{jj} = \{\begin{matrix} 79 cc 4519 & 0 \leq jj \leq 15 \\ 7 a 879 d 8 a & 16 \leq jj \leq 6 \end{matrix};

所述消息分组B⁽ⁱⁱ⁾，i＝0,1…n，为长度<2⁶⁴比特的消息进行填充得到的512n长度的新消息。

本发明与现有技术相比的优点在于：

(1)本发明根据主处理器提供的控制信号和运算数据，对主要运算进行加速，具有模块化优势，每个模块只需要完成自己特定的工作即可通过协同工作实现SM2密码算法，而且灵活性高，提高了整体芯片的可靠性、可验证性和可扩展性；

(2)本发明支持双域(GF(p)素数域和GF(2^m)二进制域)，在高效率实现运算的同时，实现运算基本单元的最大复用，与现有技术相比极大的缩小了时间消耗与硬件需求；

(3)本发明提出了一种预计算单元，不仅提高了整体计算的效率，还节省了硬件资源。

附图说明

图1为本发明主处理器、协处理器工作流程图；

图2为本发明运算处理单元A、B、C、D、E的结构图；

图3为本发明改进双域Montgomery模乘算法流程图；

图4为本发明整体模乘运算结构示意图；

图5为本发明二阶BOOTH编码部分积产生电路图；

图6为本发明M1结构图；

图7为本发明两个乘法结合图；

图8为本发明双域乘法器结构图；

图9为本发明双域4-2压缩器结构图；

图10为本发明DFA结构图；

图11为本发明比较器结构图；

图12为本发明模逆运算中双域Montgomery模逆算法流程图；

图13为本发明模逆运算模块结构图；

图14为本发明预计算单元结构图；

图15为本发明双域加减法器结构图；

图16为本发明双域模加减运算流程图；

图17为本发明模加减运算模块结构图；

图18为本发明SM3模块结构图；

图19为本发明扩展单元结构示意图；

图20为本发明压缩函数单元示意图；

图21为本发明密钥派生函数KDF算法流程图。

具体实施方式

1、协处理器结构

将SM2算法协处理器作为集成电路IP核挂接在SoC芯片的AMBA总线上，协处理器在计算过程中能够独立于主处理器进行大部分操作，专门负责点加、倍点、模乘、模加、减等计算型任务的运算。利用这种结构的模块化优势，每个部分只需要完成自己特定的工作即可通过协同工作实现SM2密码算法。其中，主处理器只需要提供协处理器必需的控制信息和运算数据，协处理器完成运算后由主处理器读取其结果。

主处理器负责将控制信息、曲线参数、随机数、待签名的消息等通过总线输出到相应的寄存器中去，协处理器由控制模块、寄存器堆、预计算模块、模乘运算模块、模逆运算模块，模加减运算模块，SM3模块组成。控制模块负责根据控制信息产生控制码，寄存器堆负责存储运算所需的各种参数、随机数、消息、中间运算结果与最终运算结果。协处理器的主要工作是在接收完数据之后，根据相应的控制码实现不同的计算，在计算完成之后，协处理器同样通过总线将计算结果返回至主处理器中。

工作流程图如图1所示。在工作过程中，主处理器只负责对协处理器进行配置并将必须的数据送至协处理器的寄存器中，然后等待协处理器计算完成；协处理器接收到数据后进行计算，在计算完成后产生对于主处理器的中断信号；在主处理器收到中断信号后，进入了响应的中断处理函数中，读取计算得到的数据并通过响应的通道将其输出，然后中断返回，整体流程结束。

2、模乘运算模块

在基于椭圆曲线密码体制的运算过程中，模乘运算是SM2椭圆曲线加密算法中的最为核心的运算，本发明结合SM2算法实际，提设计了基于改进Montgomery模乘算法的模乘器，保证能够在一个单元中实现双域运算，还进行算法的拆分和解析。

另外为了能够充分且合理有效地复用运算处理单元，最大程度的节省面积，提高效率，本发明将整个模乘计算分为5个单元，这五个运算处理单元A、B、C、D、E的结构图分别如图2所示。运算处理单元A和B共同完成的是算法中的外层循环，运算处理单元C、D、E协同完成内层循环中计算，运算处理单元E是专门用来在素数域情况下完成最后的比较工作。

a.在每一次外层循环开始时，运算处理单元A的计算都需要等待前一次外层循环中的内层循环内运算处理单元D计算出C₀值后才可以开始计算；

b.在每一个外层循环中，运算处理单元A计算出T_i和S|C_j后，运算处理单元B才可以开始计算，其中|为间隔符；

c.在每一次的内层循环中，运算处理单元C要等待运算处理单元A计算出T_i后才可以开始计算；

d.在每一个内层循环中，运算处理单元D都需要等待运算处理单元C和B计算出结果，且前一次循环中c_j的计算完成后才可以开始计算；

e.运算处理单元E需要等待循环结束后，对最终结果C＝(C₇，C₆，……C₀)与N进行比较计算，其中控制单元，接收256位待操作数据m和m，模N以及模N_j参数q，令令C为模乘计算结果，令其初始值为0，令令i＝0，进入第一层for循环，若i小于等于7，将a_i，b₀，c₀，q，输入给运算处理单元A，计算得到c₀和T_i，将N₀以及运算处理单元A的运算结果c₀和T_i发送给运算处理单元B，计算得到新的c₀，令j＝1，进入第二层for循环，若j小于等于7，调用运算处理单元C计算sum＝a_ib_j+T_iN_j，得到结果输入到运算处理单元D，并将c_j输入其中，计算sum+c_j,得到c_j，令j＝j+1，再次判断j是否小于等于7，若成立则再次进行第二层for循环下的计算，直到j不再满足条件，则第二层for循环结束，令i＝i+1，判断i是否小于等于7，若成立，则调用运算处理单元A、B再次开始新一轮的运算，然后再次令j＝1，开始新一轮的第二层for循环运算，调用运算处理单元C、D进行运算，待此次第二层for循环运算结束后，再令i＝i+1，判断i是否小于等于7，若成立，则再次开始进行第一层的for循环下的计算，依此类推，直到i＝7，且j＝7时，完成最后一次运算，得到最终的计算结果，c7、c6、c5、c4、c3、c2、c1、c0，令c＝(c7，c6，c5，c4，c3，c2，c1，c0)，此时，控制单元再对与选择控制信号进行判断，若field＝1，表示素数域，将c与N输入运算处理单元E，得到最终的运算结果C，并输出，若field＝0，表示二进制域，则不调用运算处理单元E，直接令C＝c，输出模乘结果；

运算处理单元A，接收256位待操作数据A和B，模N以及模的参数q，包含两个双域乘法器M1和一个双域加法器DFA，完成对s|c₀＝a_ib₀+c₀，Ti＝qc₀的计算，输出s|c₀和T_i；

运算处理单元B，接收来自主处理器发送来的模N，以及单元A的运算结果，包含一个双域乘法器M1和一个双域加法器DFA，求得s|c₀＝T_iN₀+s|c₀；

运算处理单元C，包含一个改进型双域乘法器M3，该乘法器可实现求两组乘积之和的运算，接收操作数A和B，以及模N，运算处理单元A的运算结果T_i，计算a_ib_j+T_iN_j，令sum＝a_ib_j+T_iN_j，输出sum；

运算处理单元D，包含一个4-2压缩器，一个双域加法器DFA，接收运算处理单元B、C以及前一外层循环c值的计算结果，求得s|cj＝sum+c_j；

运算处理单元E，仅在素数域下被使用到，是接收之前计算得到的c＝(c7,c6,c5,c4,c3,c2,c1,c0)和模N，将c与N进行比较，若c>N，则令C＝c-N，否则C＝c，输出C。

根据这些数据依赖关系，改进双域Montgomery模乘算法流程图如图3所示，整体模乘运算结构示意图如图4所示。数据输入、输出单元与外部数据接口宽度均设为32位，数据输入输出、数据在各个运算处理单元中传递与计算均在状态控制单元的控制下完成。寄存器堆存储的是运算必需的参数、数据以及最终计算结果，状态控制单元根据时钟信号、复位信号以及各个运算处理单元运算的执行情况，进行状态控制并综合调度各个运算模块，完成整体的运算。

下面分别对这五种运算处理单元运算使用到的基本运算进行设计，包括双域乘法，双域加法以及比较器。

(21)双域乘法器

首先，为了减少部分积数量，本发明采用BOOTH编码来求部分积。采用二阶BOOTH编码对乘数进行编码，可以将部分积数量从32个减少为17个，这将大大提高乘法器速度。二阶BOOTH编码部分积产生电路如图5所示。

其次，为了缩短加法所耗费的时间，使用双域Wallace树对BOOTH编码产生的部分积进行相加计算。Wallace树形结构将减少关键路径和所需的加法器单元数目，节省乘法器所需的硬件，同时也减少了传播延时。将部分积按列进行分组，每一列对应一组加法器，各列相同权重的值进行压缩相加，得到的进位传到权值高一位的前一列，得到的伪和传到同权值的下级，另外对基本Wallace树结构进行优化，对其中使用的不同压缩器，加法器进行优化组合分配，使其更加适合本发明需求。

由于在模乘算法的外部循环中用到的乘法器是求两数乘积，得到的结果是与一个值直接相加，或作为另一个乘法器的输入。针对此种情况，本发明提出的乘法器在完成最后一个压缩后，再用一个加法器对得到的伪和和进位相加，最后输出最终的乘积，这个乘法器命名为M1，其结构如图6所示，其中，4-2表示双域4-2压缩器，DFA(Dual-field adder)表示双域加法器。Control信号为BOOTH编码产生的进位-取反信号。

在模乘算法内层循环中，用到的乘法器是求两个乘积后，计算结果是直接相加的，本发明将这两个乘法结合起来实现：首先通过两个Wallace树M2，如图7所示，对两个乘法产生的部分积分别压缩相加，在Wallace树末端4-2压缩计算完成后，直接输出压缩得到两对结果共4个值。再将这些值通过一个4-2压缩器进行相加，最后，再通过一个DFA将伪和和进位相加，得到最终结果。整体的实现结构如图8所示，命名为M3-改进双域Wallace树乘法器。

(22)双域加法单元

本发明中模乘运算单元中涉及到的加法器总共有两种，分别为对部分积进行迭加时用到的双域4-2压缩器和计算最终结果的DFA，它们都是支持双域的。当域选择信号field＝1时，它们执行的是素数域上的加法，这与基本加法的实现没有差别。当域选择信号field＝0时，它们执行的是二进制域上加法，即异或运算，进位输出恒为0。

a.双域4-2压缩器

双域4-2压缩器结构如图9所示。该电路由异或门、与门和二选一数据选择器组成。此结构从不同数据输入端到输出端的延时比较均衡，这就确保Sum信号和Carry信号能够同时产生，且结构颇为规整，具有高速，低功耗、节约面积的优点。

b.DFA

DFA主要是用来处理64位加法，因此对于运算速度有较高的要求。在加法运算中，进位信号的产生消耗了绝大部分的运算时间，因此为了进一步提高加法器的运算速度，本发明的集中于如何快速产生进位信号，在每一结构层次上每次只组合四个信号，采用基四Kogge-Stone结构超前进位加法器，即w＝4，N＝64。其结构示意图如图10所示，其中，“□”表示用加法器两个加数a_i、b_i来建立相应的用加法器两个加数a_i、b_i来建立相应的P_i和G_i信号，“○”表示超前进位对数算法中的点操作，“◇”表示用两个加数a_i、b_i和前一位的进位C_o，i-1来计算该位的和。运算的实现使用了进位产生函数G_i∶j、进位传播函数P_i∶j和点操作。G_i∶j和P_i∶j分别表示从第i位至第j位的进位产生和进位传播信号，如G_3∶2＝G₃+P₃G₂＝1，表示进位产生于第3位或进位产生第2位并传播通过第3位；P_3∶2＝P₃P₂＝1，表示进位传播通过第3位和第2位。二进制域下，只需要令进位产生函数G_i:0为零即可，其余均与素数域下一致，可用同一个结构来实现。

(23)比较器单元

运算处理单元E中所使用到的比较器，是仅在素数域情况下需要使用到的比较器。它完成的功能是对C＝(C7，C6，……C0)与N进行比较的，如果C>N，则令C＝C-N，否则C值不变，最后输出C。得到的比较器结构图如图11所示。

本方法所设计的比较器可以在计算模乘的同时进行运算，这样做不仅节省了时钟周期，而且也减小了比较器的面积。由于二进制有限域上并不需要进行比较与减法操作，因此添加了域选择信号控制端，使得二进制域上的模乘运算可以不受此比较单元的影响，当field＝0时，表示是二进制域，直接输出C的值。field＝1时表示是素数域。在素数域下，减法运算结果和运算处理单元D计算的结果C＝(C₇，C₆，……C₀)均保存在内部寄存器中，将减法器计算最后的借位信号作为第一级多路选择器的一个输入端，对后续输出进行控制。若C>N，则减法器最后的借位信号为0，最终选择输出的为减法器的计算结果，C＝C-N，若C<N，则借位信号为1，输出C值不变。

3、模逆运算模块

本发明从三方面着手，一是减少模逆运算的次数；二是改进、优化模逆运算算法，提高算法本身速度；三是优化设计模逆单元的硬件结构，提高运算速度。本发明选取标准射影坐标来减少模逆运算的次数，选择便于硬件实现，且中间变量少，判断简单，支持双域运算的双域Montgomery模逆算法来实现模逆运算模块。并通过对算法的分析以及各个子运算的可复用性，设计得到的双域Montgomery模逆算法流程如图12所示。

根据算法流程，同时最多运行两个加法，所以最多需要两个双域加、减法器就可以实现模逆运算。除以2和乘以2的运算都可以用右移一位和左移一位运算代替。奇偶校验对通过该数末位是否为零进行判断就可以实现，末位为零即为偶数，末位非零即为奇数。另外n表示模数p的有效比特位数，由于n在算法执行中需要被用到，所以本发明决定使用一个额外独立的单元进行预计算求出n的值，使n值直接作为输入数据输入到运算单元中，直接参与运算。

本方法设计的模逆运算模块主要由4个部分组成：一是预计算单元，二是用来存储操作数、中间计算结果和最终计算结果的寄存器，三是两个双域加/减法器(DFa_s)计算单元，以及控制单元。具体结构如图13所示。预计算单元独立存在，提前计算好n的值，运算结果可以直接拿来使用。控制单元主要负责根据运算进行的实际情况产生控制信号，控制各个寄存器的读写、双域加减运算单元的调用、输入输出、产生加减控制信号sel，决定是进行加法运算还是进行减法运算，其中sel＝1，表示要进行加法运算，sel＝0，表示要进行减法运算。

(31)预计算单元

本发明预计算n的算法为：模数p作为输入数据，设定n表示模数p的有效比特位数，且初始值为0。算法首先对输入的p进行判断，如果p＝0，则p的有效比特位数为0，直接输出n＝0；若p不等于0，则进行右移一位操作，n＝n+1。接着，继续进行判断，如果此时p＝0，则说明p只有最末一位为非零数1，则n＝1，若p不等于1，继续进行p的右移一位以及n值加一操作，再进行p是否等于一的判断操作，以此类推，进行循环，直到p＝0，输出此时n的值，即为p的有效比特位数。该算法的实现只需要进行右移操作、加一操作以及是否为零的判断即可，其硬件实现结构图如图14所示，其中控制单元主要完成的是对p是否等于0的判断，并根据比较的结果，输出控制信号，对右移一位操作和加1操作进行控制。若p不等于0，则进行右移一位操作，n＝n+1，若p＝0时，则直接输出此时n的值。REG_p和REG_n分别为两个寄存器，REG_p为256位寄存器，用来存储模数p(p为256位)，REG_n为9位寄存器，用来存储模数p的有效比特位数(p为256位数，所以它的最高有效比特位数为256＝28，所以n最大为9位)，其中n用作模逆运算中for循环的判断条件。

(32)双域加减法器

本发明设计的双域加减法器单元硬件结构如图15所示，其中REG_A和REG_B表示两个寄存器，用来存储待计算的数值。素数域下，如果要进行加法运算，控制单元根据field＝1，sel＝1，进行判断，并输出控制信号，从REG_B中取出的数值将不进行取反运算，直接输入到运算单元进行加法计算；如果要进行减法运算，控制单元则会根据收到的field＝1和sel＝0，输出控制信号，使从REG_B中取出的数值进行取反加一求补码的操作后再输入到运算单元进行计算，得到减法结果。在二进制域下，field＝0，控制单元则直接输出控制信号使从REG_B中取出的数值不进行取反运算，直接输入到运算单元进行二进制域下的加、减法计算即异或运算。

4、模加减运算模块

本发明双域模加减运算流程图如图16所示，首先，对域进行判断，如果field＝0，二进制域，则无需再对加、减运算选择控制信号sel进行判断，直接进行异或运算，输出结果即可；如果field＝1，素数域，则接着进行加减法运算判断，sel＝1则进行加法运算，得到的结果s与模数p进行对比，若s小于p，则直接输出计算结果，若s大于等于p，则令s＝s-p，输出s。sel＝0则进行减法运算，得到结果s，若s大于零，则输出s，若s小于等于0，则令s＝s+p，输出s。模加减运算模块实现结构示意图如图17所示。模加、减运算单元由五个寄存器和两个双域加、减法器(DFa_s)计算单元，以及控制单元组成，其中控制单元主要进行判断，决定寄存器的读写，运算单元的调用等。三个寄存器负责存储输入的数据X、Y和模数P，另外寄存器1负责存储中间计算结果，送到控制单元进行判断，决定是否继续进行计算，若不需要继续计算，则输出该寄存器的值。寄存器2当需要继续计算时负责存储最终计算结果并输出。

当field＝0时，二进制域，无论sel为何值，直接调用DFa_s(1)取寄存器REG_X和REG_Y的值进行二进制域下的加、减运算即异或运算，得到的结果直接输出。此种情况下不需要使用到DFa_s(2)。

当field＝1时，素数域。若sel＝1，执行模加运算，首先调用DFa_s(1)，读取REG_X和REG_Y中的值进行加法运算，再对得到的结果进行判断，若结果大于等于P，则继续调用DFa_s(2)，调用寄存器1中的值减去P，得到结果输出，否则，直接输出寄存器1中的值。若sel＝0，执行模减运算，首次调用DFa_s(1)，读取REG_X和REG_Y中的值进行减法运算，再对得到的结果进行判断，若结果小于等于0，则继续调用DFa_s(2)，将寄存器1中的值与P相加，得到结果存入寄存器2输出，否则，直接输出寄存器1中的值。

5、SM3密码杂凑函数运算模块

密码杂凑函数的作用是对长度为l(l<2⁶⁴)比特的消息m进行填充和迭代压缩生成杂凑值，杂凑值长度为256比特。首先对消息m的填充，生成512整数倍数长度的新消息m’(长度为512xn)，再对此消息按512位进行分组得到m’＝B⁽⁰⁾B⁽¹⁾…B⁽ⁿ⁾，将B⁽⁰⁾送至消息扩展单元开始运算；接收消息扩展单元发送的W_j和W_j’后送至压缩单元；将V⁽⁰⁾＝7380166f 4914b2b9 172442d7 da8a0600a96f30bc 163138aa e38dee4d b0fb0e4e(SM3算法规定的初始值)，发送给压缩单元并接收压缩单元的压缩结果V⁽¹⁾，再将V⁽¹⁾发送给压缩单元，将B⁽¹⁾发送给消息扩展单元开始运算，再将结果发送给压缩单元进行压缩，得到V⁽²⁾，以此类推得到V⁽ⁿ⁾作为最终的计算结果，本模块结构如图18所示。

(51)消息扩展单元

SM3消息扩展单元结构示意图如图19所示，将B⁽ⁱ⁾划分为16个字W₀，W₁，…，W₁₅存储在此寄存器堆中，依次作为寄存器堆的初始值；每个时钟周期计算新的W_j+16，并取W₀以及W₀和W₄异或的结果作为下一级压缩函数计算所需的W_j和W_j’输出；然后将寄存器左移一个字；再用之前新计算的W_j+16更新W₁₅。

(52)压缩函数单元

压缩函数单元示意图如图20所示，接收消息扩展单元发送的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃，获取字寄存器，记为A、B、C、D、E、F、G、H且ABCDEFGH＝V⁽ⁱ⁾，令j＝0并判断，若j小于等于63，则

SS1＝((A<<12)+E+(T_j<<j))<<7，SS2＝SS1⊕(A<<12)，

TT1＝FF_j(A,B,C)+D+SS2+W_j’，TT2＝GG_j(E,F,G)+H+SS1+W_j

然后将C字寄存器数值赋予字寄存器D、将字寄存器G数值赋予字寄存器H、字寄存器A数值赋予字寄存器B、将B<<9数值赋予字寄存器C、将F<<19数值赋予字寄存器G、字寄存器A数值赋予字寄存器B、字寄存器E数值赋予字寄存器F、将TT1赋予字寄存器A、将P0(TT2)赋予字寄存器E，同时j＝j+1，直至j大于63，然后进行计算V⁽ⁱ⁺¹⁾＝ABCDEFGH⊕V⁽ⁱ⁾(i＝0,1…n-1)，若0<i<n-1，则获取新的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃后重复执行获取字寄存器，记为A、B、C、D、E、F、G、H且ABCDEFGH＝V⁽ⁱ⁾，令j＝0并判断，若j小于等于63，则SS1＝((A<<<12)+E+(T_j<<<j))<<7，SS2＝SS1⊕(A<<<12)，TT1＝FF_j(A,B,C)+D+SS2+W_j’，TT2＝GG_j(E,F,G)+H+SS1+W_j，然后将C字寄存器数值赋予字寄存器D、将字寄存器G数值赋予字寄存器H、字寄存器A数值赋予字寄存器B、将B<<9数值赋予字寄存器C、将F<<19数值赋予字寄存器G、字寄存器A数值赋予字寄存器B、字寄存器E数值赋予字寄存器F、将TT1赋予字寄存器A、将P0(TT2)赋予字寄存器E，同时j＝j+1，直至j大于63，然后进行V⁽ⁱ⁺¹⁾＝ABCDEFGH⊕V⁽ⁱ⁾(i＝0,1…n-1)直至i＝n-1，若i＝n-1，则将V⁽ⁱ⁺¹⁾作为B⁽ⁱ⁾的SM3运算结果，最终得B⁽ⁱ⁾，i＝0,1…n的计算结果输出并送至寄存器堆存储，其中，<<<为左移k比特运算，FF_j和GG_j分别是布尔函数，表达式为

P₀、P₁是置换函数，表达式为

\begin{matrix} P_{0} (X) = X &CirclePlus; (X < < < 9) &CirclePlus; (X < < < 17) \\ P_{1} (X) = X &CirclePlus; (X < < < 15) &CirclePlus; (X < < < 23) \end{matrix},

Tj为常量，表达式为

T_{j} = \{\begin{matrix} 79 cc 4519 & 0 \leq jj \leq 15 \\ 7 a 879 d 8 a & 16 \leq jj \leq 6 \end{matrix};

消息分组B⁽ⁱ⁾，i＝0,1…n，为长度<2⁶⁴)比特的消息进行填充得到的512n长度的新消息。

6、KDF密钥派生函数的实现

通过多次调用SM3密码杂凑函数，再附加一些判断、连接就可以实现密钥派生函数KDF的整个算法流程，如图21所示。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，其特征在于包括控制模块、寄存器堆、模乘模块、模逆模块、模加减模块、SM3模块，其中

2.根据权利要求1所述的一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，其特征在于：所述的模乘模块包括第一控制单元、运算处理单元A、运算处理单元B、运算处理单元C、运算处理单元D、运算处理单元E，其中

3.根据权利要求1所述的一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，其特征在于：所述的模逆运算模块包括预计算单元、第二控制单元、双域加减法器计算单元，其中

4.根据权利要求1所述的一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，其特征在于：所述的模加减运算模块包括双域加减法器计算单元、第三控制单元，其中

5.根据权利要求1所述的一种椭圆曲线公钥密码SM2算法的硬件加速协处理器，其特征在于：所述的SM3模块包括消息扩展单元、压缩单元、其中

压缩单元，接收消息扩展单元发送的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃，同时选取八个字寄存器，分别记为A、B、C、D、E、F、G、H且A、B、C、D、E、F、G、H的拼接结果记为ABCDEFGH＝V⁽ⁱⁱ⁾，令jj＝0并判断，若jj小于等于63，则SS1＝((A<<<12)+E+(T_jj<<<jj))<<<7，SS2＝SS1⊕(A<<<12)，

TT1＝FF_jj(A,B,C)+D+SS2+W_jj’，TT2＝GG_jj(E,F,G)+H+SS1+W_jj，然后将C字寄存器数值赋予字寄存器D、将字寄存器G数值赋予字寄存器H、字寄存器A数值赋予字寄存器B、将B<<<9数值赋予字寄存器C、将F<<<19数值赋予字寄存器G、字寄存器A数值赋予字寄存器B、字寄存器E数值赋予字寄存器F、将TT1赋予字寄存器A、将P0(TT2)赋予字寄存器E，同时jj＝jj+1，直至jj大于63，然后进行计算V⁽ⁱⁱ⁺¹⁾＝ABCDEFGH⊕V⁽ⁱⁱ⁾(ii＝0,1…n-1)，若0<ii<n-1，则获取新的W₀，W₁，…，W₆₇，W′₁，…，W′₆₃后重复执行上述计算，直至jj大于63，然后进行V⁽ⁱⁱ⁺¹⁾＝ABCDEFGH⊕V⁽ⁱⁱ⁾直至ii＝n-1，若ii＝n-1，则将V⁽ⁱⁱ⁺¹⁾作为B⁽ⁱⁱ⁾的SM3运算结果，最终得B⁽ⁱⁱ⁾，ii＝0,1…n的SM3计算结果输出并送至寄存器堆存储，其中，V⁽ⁱⁱ⁾初始值为V⁽⁰⁾＝7380166f 4914b2b9172442d7da8a0600a96f30bc163138aa e38dee4d b0fb0e4e，<<<为左移k比特运算，FF_jj和GG_jj分别是布尔函数，表达式为

P₀、P₁是置换函数，表达式为

\begin{matrix} P_{0} (X) = X &CirclePlus; (X < < < 9) &CirclePlus; (X < < < 17) \\ P_{1} (X) = X &CirclePlus; (X < < < 15) &CirclePlus; (X < < < 23) \end{matrix},

Tjj为常量，表达式为

T_{jj} = \{\begin{matrix} 79 cc 4519 & 0 \leq jj \leq 15 \\ 7 a 879 d 8 a & 16 \leq jj \leq 6 \end{matrix};