CN113783702A

CN113783702A - 一种椭圆曲线数字签名与验签的硬件实现方法和系统

Info

Publication number: CN113783702A
Application number: CN202111141914.6A
Authority: CN
Inventors: 李丽; 龙威; 傅玉祥; 何书专; 陈健
Original assignee: Nanjing Ningqi Intelligent Computing Chip Research Institute Co ltd
Current assignee: Nanjing Ningqi Intelligent Computing Chip Research Institute Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-10

Abstract

本发明公开一种椭圆曲线数字签名与验签的硬件实现方法和系统，属于信息安全技术领域。针对现有技术中存在的椭圆曲线数字签名算法计算复杂度高，硬件性能不够，加速难度大的问题，本发明硬件实现方法，将倍点、点加、模乘运算、模加运算、模减运算、模逆运算、模移位运算等底层运算集成在一起，构建新的计算阵列结构，优化调度方法，整合计算资源并实现共享，减少计算过程中的调用次数和硬件资源消耗，提高硬件性能和调度顺序，降低系统计算时间，提高计算效率，降低硬件资源使用，取得更好的性能。

Description

一种椭圆曲线数字签名与验签的硬件实现方法和系统

技术领域

本发明涉及信息安全技术领域，更具体地说，涉及一种椭圆曲线数字签名与验签的硬件实现方法和系统。

背景技术

椭圆曲线密码学(ECC,Elliptic Curve Cryptography)，是一种建立公开密钥加密的算法，基于椭圆曲线数学，最早在1985年由Neal Koblitz和Victor Miller分别独立提出。与RSA加密算法相比，椭圆曲线加密具有更高的安全性、更小的计算量，逐渐成为密码学研究的热点，现已被多个国际标准化组织作为标准化文件。目前ECC算法在数字签名、移动设备通信、安全性半导体、区块链等领域均有重要应用。

椭圆曲线数字签名算法(ECDSA,Elliptic Curve Digital SignatureAlgorithm)，于1999年成为ANSI标准，并于2000年成为IEEE和NIST标准。椭圆曲线数字签名算法是椭圆加密与数字签名算法的结合，由于其计算量小、处理速度快、存储空间占用小等特点，被广泛应用于电子商务系统和其他网络领域，并逐渐成为当前主流区块链平台及项目的默认签名机制。随着网络传输技术和硬件性能的提升，各技术领域对ECDSA算法的速度要求也越来越高，而ECDSA算法中的标量乘计算复杂度高，尤其是模乘的实现与点加、倍点的调度耗时较长，是硬件加速的难点。

中国专利申请一种双域椭圆曲线点乘硬件加速器，申请号CN202010605159.1，公开日2020年10月27日，公开了一种双域椭圆曲线点乘硬件加速器，该硬件加速器分为模运算层和点运算层，其中该模运算层包括素数域和二进制域模约减、模乘、模逆模块；点运算层包括素数域NAF点乘运算模块，倍点和点加以及二进制域点乘模块。其中，所述硬件加速器是作为从设备挂载在设备总线上并且连接到处理器，处理器通过配置该硬件加速器中的功能寄存器来实现不同的加速运算模式，该发明采用传统蒙哥马利模乘，所需硬件面积较大，且算法实现复杂，硬件无法灵活地进行重构；该发明未对Jacobian坐标系下的点加与倍点计算进行进一步调度优化，计算时间与资源利用未达到最优；该发明未充分利用各层次下共同的计算类型，未对ECDSA算法中最高层次的签名与验签计算进行资源重用的优化。

发明内容

1.要解决的技术问题

针对现有技术中存在的椭圆曲线数字签名算法计算复杂度高，硬件性能不够，加速难度大的问题，本发明提供一种椭圆曲线数字签名与验签的硬件实现方法和系统，优化运算模块调度顺序，降低系统计算时间，提高计算效率，降低硬件资源使用，取得更好的性能。

2.技术方案

本发明的目的通过以下技术方案实现。

一种椭圆曲线数字签名与验签的硬件实现方法，包括以下步骤：

读取椭圆曲线参数，判断功能选择信号将系统配置为签名与验签模式；

实现椭圆曲线签名与验签调度，在签名算法模式系统调用两次标量乘运算、一次模加运算、两次模乘运算、一次模逆运算和一次取模运算；在验签算法模式，系统调用两次标量乘运算、一次点加运算、两次模乘运算、一次模逆运算和一次取模运算；

输出结果，运算结束。

在签名模式下，椭圆曲线参数与配置从数据有效信号开始计数，签名模式下从第一个时钟开始，输入端口依次传入的数据为椭圆曲线参数a、模数p、基点x坐标Gx、基点y坐标Gy、密钥d、随机数k、明文e和基点的阶n。

调度时将基点G与密钥d进行标量乘，生成公钥Q＝dG；

将基点G与随机数k进行标量乘，生成点R＝(x1,y1)＝kG；

生成数字签名参数r＝x₁mod n(n为基点G的阶)；

调用模乘、模逆、模加，生成数字签名参数s＝k^-1(e+dr)mod n。

在验签模式下，椭圆曲线参数与配置从第一个时钟开始，输入端口依次传入的数据为椭圆曲线参数a、模数p、基点x坐标Gx、基点y坐标Gy、待验证签名数据r’、待验证签名数据s’、明文e、基点的阶n、公钥Q的x坐标Qx和公钥Q的y坐标Qy。

调度时计算c＝(s′)^-1mod n；

计算u₁＝ec mod n和u₂＝r′c mod n；

调用标量乘，计算u₁G和u₂Q；

调用点加，计算(x₁,y₁)＝u₁G+u₂Q；

生成验签参数v＝x₁mod n。

优选的，签名与验签控制器调用标量乘计算、点加和倍点计算，以及各种模运算。签名与延签算法包括四个层次，最高层次为椭圆曲线数字签名与验签计算调度，第三层次为标量乘计算，第二层次为点加和倍点计算，第一层次为运算模块计算；最高层次不仅调用第三层次的标量乘计算，还调用第一层次的点加和倍点计算，以及第二层次的运算模块计算。

优选的，将点加和倍点运算映射到Jacobian坐标系执行。对于一次完整的标量乘来说，只需要两次模逆，减少了模逆运算的次数，进而减少了计算量。

优选的，对Jacobian坐标系下的点加、倍点计算进行调度优化，减少计算过程中模乘的调用次数和寄存器的消耗。

具体实现方法如下：

F_p上的椭圆曲线方程Ep(a,b)：y²＝x³+ax+b上的点(x,y)可以表示为(X,Y,Z),其中令x＝X/Z²，y＝Y/Z³(Z≠0，若Z＝0则便是原坐标系下的无穷点)，带入椭圆曲线可得：

Y²＝X³+aXZ⁴+bZ⁶

其中a,b∈Fp且4a³+27b²≠0 mod p.

对于(X₁,Y₁,Z₁)和(X₂,Y₂,Z₂)若存在某个点u∈Fp且u≠0,使得：

X₁＝u²X₂,Y₁＝u³Y₂,Z₁＝uZ₂，则称这两个点三元组等价，表示同一个点。

Jacobian坐标系下的，Ep(a,b)上的加法运算定义如下：

(a)O+O＝P；

(b)

P+O＝O+P＝P

(c)

P的逆元素-P＝(u²X₂,-u³Y₂,uZ₂),u∈Fp且u≠0,P+(-P)＝O

(d)设点

P₁＝(X₁,Y₁,Z₁)∈E(Fp)\{0}，P₂＝(X₂,Y₂,Z₂)∈E(Fp)\{0}，P₃＝P₁+P₂＝(X₃,Y₃,Z₃)≠O，

若P₁≠P₂则：

λ₃＝λ₁-λ₂，

λ₆＝λ₄-λ₅λ₇＝λ₁+λ₂，λ₈＝λ₄+λ₅，

Z₃＝Z₁Z₂λ₃

若P₁＝P₂则：

Y₃＝λ₁(λ₂-X₃)-λ₃，Z₃＝2Y₁Z₁

此时，模乘的计算周期取决于两个乘数的最小位宽。因此，将一个乘数较小的小点数模乘(如上式中4X₁)单独作为一个控制指令以优化速度，与一般模乘调用同一个模乘计算阵列，但计算周期远小于一般模乘。

在该实现方法中，点加、倍点的具体调度方式如下：

倍点：

点加：

在上述倍点、点加调度优化方法中，分析计算过程中的数据依赖与数据重用，减少计算过程中模乘的调用次数，将倍加的15次模乘减少为10次模乘和3次小点数模乘，减少了约33％的时钟周期消耗；将加点的21次模乘减少为16次模乘，减少了约23.8％的时钟周期消耗。同时，寄存器的占用更加紧凑，最大程度的减少的寄存器的消耗，寄存器峰值占用为7个寄存器，最终每路标量乘只需要7个寄存器寄存倍点、点加的中间数据。

优选的，采用NAF算法降低标量乘的计算复杂度，减小点加和倍点的调用次数。根据NAF二进制表示算法(非相邻表示型Non-adjacent Form NAF)来减少计算量，具体的流程如下：

输入：点P，l比特的整数

输出：Q＝[k]P。

(1)3k的二进制表示是h_rh_r-1…h₁h₀，其中最高位h_r为1；

(2)设k的二进制表示是k_rk_r-1…k₁k₀，显然r＝l或l+1；

(3)置Q＝P；

(4)对i从r-1下降到1执行：

(i)Q＝[2]Q；

(ii)若h_i＝1，且k_i＝0，则Q＝Q+P；

(iii)若h_i＝0，且k_i＝1，则Q＝Q-P；

(5)输出Q；

NAF算法可以有效的降低一次点乘所需要的倍点和点加数量。将点加和倍点运算映射到Jacobian坐标系，对于一次完整的标量乘来说，只需要两次模逆，大大减少了模逆运算的次数，进而减少了计算量。

优选的，采用扩展欧几里得算法实现模逆运算。使用扩展欧几里得算法进行模逆运算，对系统整体性能影响较小，相比于蒙哥马利模逆算法，扩展欧几里得算法性能较差但面积更小，满足该实现方法需求。模逆运算控制逻辑较为复杂，且调用次数较少，不实现为阵列形式。在该实现方法中，将多路标量乘结果打拍，分时复用模逆控制器。

优选的，将模乘计算展开为秦九韶展开式的形式，分解为若干次重复操作。每次操作包括判断、移位、加法、减法，具体实现方法如下：

在有限域中，有以下定理：

x·y mod N＝((x mod N)·(y mod N))mod N(0≤x,y≤N)

x+y mod N＝((x mod N)+(y mod N))mod N(0≤x,y≤N)

基于以上定理，为了快速计算出x·y mod N，将y进行拆分，将大数的模乘运算，分解为多次移位累加取模运算，来减小计算量。具体的操作如下所示：

l表示y的位数。

则x·y mod N可表示为

再进一步展开得到：

由展开后的表达式可知硬件上只要实现表达式2(xy_l-1+z)modN,z<N,y_l-1∈(0,1)，经过多次调用或者多级级联即可得到最终的模乘结果，最大迭代次数与y的位宽相等，每个模乘单元实现的计算流程如下：

输入：x、y_i、z、N

(1)判断y_i是否为0：

y_i＝0，则输出result₁＝z到(2)；

y_i＝1，则输出result₁＝x+z到(2)。

(2)判断result₁是否大于N：

result₁≥N，则输出result₂＝result₁-N到(3)；

result₁<N，则输出result₂＝result₁到(3)。

(3)将result₂左移两位，输出result₃＝result₂<<2到步骤四。

(4)判断result₃是否大于N：

result₃≥N，则输出result₄＝result₄-N；

result₃<N，则输出result₄＝result₄。

结果result₄作为下一级的z输入继续迭代直到y的最低位，第一级的z为0。该实现方法中的模乘单元由两个比较器、一个加法器、两个减法器、一个移位寄存器、一个单比特选择器组成，结构统一，模乘阵列由若干个这样的模乘单元组成，可根据需要灵活的进行流水线和并行度的展开，具有较高的面积性能比。

优选的，签名和验签步骤的取模运算用一个加数为零的模加计算代替，避免了额外设计取模电路。

一种椭圆曲线数字签名与验签的硬件实现系统，使用所述的一种椭圆曲线数字签名与验签的硬件实现方法，所述系统包括用于配置签名和验签模式的签名验签控制器，用于调用点加和倍点计算的标量乘控制器，用于控制底层运算集合状态的底层运算控制器，和用于实现计算的运算模块。

签名验签控制器用于配置为签名和验签模式，并接收椭圆曲线数字签名和验签参数，调用底层运算控制器连接的运算模块，输出签名和验签结果数据。标量乘控制器用于调用点加和倍点计算，完成椭圆曲线上的标量乘运算。底层运算控制器用于实现椭圆曲线数字签名与验签算法中所有底层运算集合的状态机控制。运算模块用于实现不同形式的计算。

优选的，标量乘控制器控制调用点加和倍点计算；运算模块包括模乘阵列、模加阵列、模减阵列、模逆阵列和模移位阵列。模逆阵列包括多个模逆计算单元，用于实现模逆计算。模乘阵列包括多个模乘计算单元，用于模乘计算。模加阵列，包括多个模加计算单元，用于模加计算。模减阵列，包括多个模减计算单元，用于模减计算。模移位阵列，包括多个模移位计算单元，用于模移位计算。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明硬件实现中，计算结构，将倍点、点加以及各种模运算实现为计算指令集合，优化点加、倍点计算调度顺序，减少计算时钟周期和寄存器等硬件电路开销。本发明只涉及加法、减法、移位、判断运算，避免了大位宽的乘法器与除法器，硬件结构灵活可适不同性能面积要求，易于硬件实现，在有较高性能的同时，计算复杂度低且硬件资源消耗少。通过基于秦九韶展开式的快速模乘实现，将模乘实现为由若干相同单元组成的阵列形式，可根据位宽、性能的不同灵活配置阵列连接方式，硬件资源消耗小，有良好的实际应用价值。

附图说明

图1为本发明的整体结构示意图；

图2是本发明的模乘阵列结构示意图；

图3是本发明的单个模乘结构示意图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例

本实施例公开一种高性能椭圆曲线数字签名与延签的硬件实现方法，先分析椭圆曲线数字签名算法计算通路，将整个算法分为四个层次，最高层次(即第四层)为椭圆曲线数字签名与验签计算调度，第三层次为标量乘计算，第二层次为点加和倍点运算，第一层次为各种模运算(模乘、模逆、模加、模减、模移位)。本实施例实现方法中，为减小额外硬件开销，将签名和验签步骤中生成验签参数的取模用一个加数为0的模加计算代替，避免了额外设计取模电路。

最高层次的签名与验签计算调度调用第三层次的标量乘计算，还会调用第一和第二层次运算功能，在本实施例硬件实现方法中，将第一、二层次的倍点、点加以及各种模运算实现为计算指令集合的形式供高层次算法调用，签名验签控制器与标量乘控制器均可配置底层运算控制器，点加、倍点计算对模运算的调用以内部有限状态机FSM跳转的形式实现。

标量乘计算的控制复杂，计算复杂度高，对倍点、点加的调用可能超过百次，且只需要提供签名验签控制器的调用，因此不加入计算指令集合而是单独实现一个控制模块。

具体的，一种高性能椭圆曲线数字签名与延签的硬件实现方法，包括：签名验签控制器读取系统输入的椭圆曲线参数与配置，签名验签控制器调用标量乘控制器和底层运算控制器进行对应的运算，底层运算控制器根据不同的状态控制运算模块中不同阵列的调用。

首先，对签名模式的硬件实现方法进行描述。

配置为签名模式，将基点G与密钥d进行标量乘，生成公钥Q＝dG；将基点G与随机数k进行标量乘，生成点R＝(x1,y1)＝kG；生成数字签名参数r＝₁mod n，n为基点G的阶；调用模乘、模逆、模加，生成数字签名参数s＝k^-1(e+dr)mod n。

具体计算时，先调用标量乘控制器，计算Q＝dG。对标量乘的实现采用NAF算法减小标量乘的计算复杂度，减小了点加和倍点的调用次数。一般来说，标量乘(例如kP)的实现通常是采用累加的方式实现的，即：2P＝P+P、3P＝2P+P……以此类推。但这种方式计算量过大，因此考虑了NAF二进制表示算法(非相邻表示型Non-adjacent Form NAF)来减少计算量，具体的流程如下：

输入：点P，l比特的整数

输出：Q＝[k]P。

标量乘的计算过程如下：

(1)设3d的二进制表示为h_r，h_(r-1)，…，h_1，h_0，其中最高位h_r为1；

(2)设d的二进制表示为k_r，k_(r-1)，…，k_1，k_0，显然r＝l或l+1；

(3)置Q＝G；

(4)对i从r-1下降到1执行：

a、Q＝[2]Q；

b、若h_i＝1，且k_i＝0，则Q＝Q+G；

c、若h_i＝0，且k_i＝1，则Q＝Q-G；

(5)输出Q。

该标量乘实现方法有效的降低一次标量乘所需要的倍点和点加数量。

点加与倍点计算过程为：将Q、G映射到Jacobian坐标系，将Jacobian坐标系下的点加、倍点计算进行了调度优化，具体实现方法如下：

F_p上的椭圆曲线方程Ep(a,b):y²＝x³+ax+b上的点(x,y)可以表示为(X,Y,Z)，令x＝X/Z²，y＝Y/Z³(Z≠0，若Z＝0则便是原坐标系下的无穷点)，带入椭圆曲线可得：

Y²＝X³+aXZ⁴+bZ⁶

其中a,b∈Fp且4a³+27b²≠0 mmod p。

对于(X₁,Y₁,Z₁)和(X₂,Y₂,Z₂)若存在某个点u∈Fp且u≠0，使得：

X₁＝u²X₂,Y₁＝u³Y₂,Z₁＝uZ₂，

则称这两个点三元组等价，表示同一个点。

Jacobian坐标系下的，Ep(a,b)上的加法运算定义如下：

(a)O+O＝P；

(b)

P+O＝O+P＝P

(c)

P的逆元素-P＝(u²X₂,-u³Y₂,uZ₂),u∈Fp且u≠0,P+(-P)＝O

(d)设点

若P₁≠P₂则：

λ₃＝λ₁-λ₂，

λ₆＝λ₄-λ₅λ₇＝λ₁+λ₂，λ₈＝λ₄+λ₅，

Z₃＝Z₁Z₂λ₃

若P₁＝P₂则：

Y₃＝λ₁(λ₂-X₃)-λ₃，Z₃＝2Y₁Z₁

在该实现方法的模乘实现中，模乘的计算周期取决于两个乘数的最小位宽。因此，将一个乘数较小的小点数模乘(如上式中4X₁)单独作为一个控制指令以优化速度，与一般模乘调用同一个模乘计算阵列，但计算周期远小于一般模乘。

具体的，若计算2Q则执行表1：

表1

若计算Q+G则执行表2：

表2

若计算Q-G则将G点y坐标取为-y然后按Q+G执行表2。

本实施例将点加和倍点运算映射到Jacobian坐标系，对于一次完整的标量乘来说，只需要两次模逆，大大减少了模逆运算的次数，进而减少了计算量。

在上述倍点、点加调度优化方法中，分析计算过程中的数据依赖与数据重用，减少计算过程中模乘的调用次数，将倍加的15次模乘减少为10次模乘和3次小点数模乘，减少了约33％的时钟周期消耗；将加点的21次模乘减少为16次模乘，减少了约23.8％的时钟周期消耗。且寄存器的占用更加紧凑，最大程度的减少的寄存器的消耗，寄存器峰值占用为7个寄存器，最终每路标量乘只需要7个寄存器寄存倍点、点加的中间数据。

本实施例模乘计算采用基于秦九韶展开式的快速模乘设计模乘阵列，将模乘计算展开为秦九韶展开式的形式，将其分解为若干次重复操作，每次操作包括判断、移位、加法、减法，具体实现方法如下：

在有限域中，有以下定理：

x·y mod N＝((x mod N)·(y mod N))mod N(0≤x,y≤N)

x+y mod N＝((x mod N)+(y mod N))mod N(0≤x,y≤N)

l表示y的位数。

则x·y mod N可表示为

再进一步展开得到：

由展开后的表达式可知硬件上只要实现表达式2(xy_l-1+z)modN,z<N,y_l-1∈(0,1)，经过多次调用或者多级级联即可得到最终的模乘结果，最大迭代次数与y的位宽相等。

模乘计算流程如下，将z初始化为0，对y从最高位到最低位重复执行，输入：x、y_i、z、N：

(1)判断y_i是否为0：

若y_i＝0，则输出result₁＝z到(2)；

若y_i＝1，则输出result₁＝x+z到(2)。

(2)判断result₁是否大于N：

若result₁≥N，则输出result₂＝result₁-N到(3)；

若result₁<N，则输出result₂＝result₁到(3)。

(3)将result₂左移两位，输出result₃＝result₂<<2到步骤四；如果y_i为最后一位，则不移位直接输出。

(4)判断result₃是否大于N：

若result₃≥N，则输出result₄＝result₄-N；

若result₃<N，则输出result₄＝result₄。

最终的结果result₄作为下一级的z输入继续迭代直到y的最低位，第一级的z为0。该实现方法中的模乘单元如实施例1所述，硬件包括比较器、加法器、减法器、移位寄存器和单比特选择器，结构统一。模乘阵列包括若干个这样的模乘计算单元，可根据需要灵活的进行流水线和并行度的展开，具有较高的面积性能比。

下面，依次调用标量乘控制器，计算R＝(x1,y1)＝kG。

配置底层运算控制器为模加状态，通过模加阵列计算r＝x₁+0 mod N。

配置底层运算控制器为模乘状态，通过模乘阵列计算d·r modN。

配置底层运算控制器为模加状态，通过模加阵列计算e+d·r modN。

配置底层运算控制器为模逆状态，通过模逆阵列计算k^-1modN。

配置底层运算控制器为模乘状态，通过模乘阵列计算s＝k^-1(e+dr)mod N。

运算模块具体计算方式上文已详细描述，此处不再赘述。本实施例采用扩展欧几里得算法，将多路标量乘结果打拍，分时复用模逆控制器。模逆运算性能对整体性能影响较小，相比于蒙哥马利模逆算法，扩展欧几里得算法性能较差但面积更小，满足该实现方法需求。模逆运算控制逻辑较为复杂，且调用次数较少，不必实现为阵列形式。

最后输出计算结果，本实施例为签名模式，则系统输出(r,s)，计算结束。

基于签名模式的硬件实现方法，下面描述在验签模式下的硬件实现方法。

在验签模式下，系统先计算c＝(s′)^-1mod n、u₁＝ec mod n和u₂＝r′c mod n。调用标量乘，计算u₁G和u₂Q。调用点加，计算(x₁,y₁)＝u₁G+u₂Q，生成验签参数v＝x₁mod n。配置底层状态控制器为模逆状态，通过模逆阵列计算c＝(s′)^-1mod N。

配置底层状态控制器为模乘状态，通过模乘阵列计算u₁＝ec mod N。

配置底层状态控制器为模乘状态，通过模乘阵列计算u₂＝r′c mod N。

调用标量乘控制器，计算u₁G。

调用标量乘控制器，计算u₂Q。

配置底层状态控制器为点加状态，计算(x₁,y₁)＝u₁G+u₂Q。

配置底层状态控制器为模加状态，通过模加阵列计算v＝x₁+0 mod N。

验签模式与签名模式下的运算模块的计算方法和依据相同，具体计算方式上文已详细描述，此处不再赘述。

最后输出计算结果，本实施例为验签模式，则系统输出v，计算结束。

基于前述的硬件实现方法，下面对于该方法的硬件系统进行详细描述。

一种高性能椭圆曲线数字签名与验签的硬件实现系统，如图1所示，包括签名验签控制器、标量乘控制器、底层运算控制器和运算模块；签名验签控制器与标量乘控制器进行数据传输，标量乘控制器和底层运算控制器进行数据传输，签名验签控制器还和底层运算控制器进行数据传输，底层运算控制器与运算模块进行数据传输。

签名验签控制器用于配置为签名和验签模式，并接收椭圆曲线数字签名和验签参数，调用底层运算控制器连接的运算模块，输出签名和验签结果数据。签名验签控制器包括第一有限状态机FSM、第一数据接收模块和第一数据发送模块。

标量乘控制器用于调用点加和倍点计算，完成椭圆曲线上的标量乘运算。标量乘控制器包括第二有限状态机FSM、第二数据接收模块和第二数据发送模块。

底层运算控制器用于实现椭圆曲线数字签名与验签算法中所有底层运算集合的状态机控制。底层运算控制器的状态包括倍点运算状态、点加运算状态、模乘运算状态、模加运算状态、模减运算状态、模逆运算状态和模移位状态。底层运算控制器包括计算指令译码器、第三有限状态机FSM和计算阵列选择器。

运算模块用于实现不同形式的计算，运算模块包括模乘阵列、模加阵列、模减阵列、模逆阵列和模移位阵列。

模乘阵列包括多个模乘计算单元，用于模乘计算。模乘阵列结构如图2所示，模乘计算单元先以级联的方式连接X级，即上一级的结果输入到下一级，X为大于零的整数。级联后的模乘计算单元再并行连接到底层运算控制器。级联与并行的数量可以根据需要调整。如256bit模乘的计算需要256次迭代，迭代可以将同一个模乘模块重复调用256次，也可以把256个模块连到一起。具体实施的时候可以调整级联的数量，比如4个级联就调用64次，单独一个就调用256次，n个级联需要调用256/n次。具体级联数量不大于模乘位宽就行。一般来说，级联数量越多的越多，计算越快，但是芯片面积也越大。

模乘计算单元如图3所示，包括比较器、加法器、减法器、移位寄存器和选择器，输入数据分别连接加法器的输入端、第一选择器的输入端、第一减法器的输入端和移位寄存器的输入端，第一选择器的输出端连接加法器的输入端，加法器的输出端连接第一减法器的输入端和第二选择器的输入端，第一减法器的输出端也连接第二选择器的输入端，第二选择器的输出端通过移位寄存器连接第二减法器的输入端、第三选择器的输入端和第四选择器的输入端，第二减法器的输出端连接第三选择器的输入端，第三选择器的输出端连接第四选择器的输入端，第四选择器的输出端输出计算结果。

模加阵列，包括多个模加计算单元，用于模加计算。模加计算单元包括加法器、比较器、减法器和选择器，加法器输出端连接减法器输入端、比较器输入端和选择器输入端，减法器输出端连接选择器输入端，比较器输出端连接到选择器输入端，所有的模加计算单元并行连接到底层运算控制器。

模减阵列，包括多个模减计算单元，用于模减计算。模减计算单元包括减法器，加法器和选择器，减法器输出端连接加法器输入端和比较器输入端，减法器输出端最高位连接比较器输入端，加法器输出端连接到比较器输入端，所有的模减计算单元并行连接到底层运算控制器。

模移位阵列，包括多个模移位计算单元，用于模移位计算。模移位计算单元包括移位寄存器、减法器、比较器和选择器，移位寄存器输出端连接减法器输入端、比较器输入端和选择器输入端。比较器输出端连接到选择器输入端，减法器输出端连接选择器输入端，所有的模移位计算单元并行连接到底层运算控制器。

模逆阵列包括多个模逆计算单元，用于实现模逆计算。模逆阵列的模逆计算单元包括第四有限状态机FSM，模移位模块和减法器，用于实现模逆计算。所有的模逆计算单元并行连接到底层运算控制器。

本发明硬件实现时，使用NAF算法、Jacobian坐标系映射优化计算速度，将底层运算实现为可配置阵列，减小硬件开销，对Jacobian坐标下倍点、点加计算进行调度优化，基于秦九韶展开式实现模乘计算阵列，可实现较高的计算性能，有较高的应用潜力。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，在不背离本发明的精神或者基本特征的情况下，能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，包括以下步骤：

输出结果，运算结束。

2.根据权利要求1所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，签名与验签控制器调用标量乘计算、点加和倍点计算，以及各种模运算。

3.根据权利要求2所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，将点加和倍点运算映射到Jacobian坐标系执行。

4.根据权利要求3所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，对Jacobian坐标系下的点加、倍点计算进行调度优化，减少计算过程中模乘的调用次数和寄存器的消耗。

5.根据权利要求4所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，采用NAF算法降低标量乘的计算复杂度，减小点加和倍点的调用次数。

6.根据权利要求1所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，采用扩展欧几里得算法实现模逆运算。

7.根据权利要求1所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，将模乘计算展开为秦九韶展开式的形式，分解为若干次重复操作。

8.根据权利要求1所述的一种椭圆曲线数字签名与验签的硬件实现方法，其特征在于，签名和验签步骤的取模运算用一个加数为零的模加计算代替。

9.一种椭圆曲线数字签名与验签的硬件实现系统，其特征在于，使用如权利要求1-8所述的一种椭圆曲线数字签名与验签的硬件实现方法，所述系统包括用于配置签名和验签模式的签名验签控制器，用于调用点加和倍点计算的标量乘控制器，用于控制底层运算集合状态的底层运算控制器，和用于实现计算的运算模块。

10.根据权利要求9所述的一种椭圆曲线数字签名与验签的硬件实现系统，其特征在于，标量乘控制器控制调用点加和倍点计算；运算模块包括模乘阵列、模加阵列、模减阵列、模逆阵列和模移位阵列。