CN114895870A

CN114895870A - 基于fpga实现的高效可重构sm2点乘方法及系统

Info

Publication number: CN114895870A
Application number: CN202210472722.1A
Authority: CN
Inventors: 王明阳; 崔颖超; 刘涛; 汪波; 王军良; 姚英彪; 杨阿锋; 王明飞; 梁军学; 徐欣
Original assignee: 93216 Troops Of Chinese Pla; Hangzhou Dianzi University
Current assignee: 93216 Troops Of Chinese Pla; Hangzhou Dianzi University
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-12
Anticipated expiration: 2042-04-29
Also published as: CN114895870B

Abstract

本发明属于信息安全技术领域，具体涉及基于FPGA实现的高效可重构SM2点乘方法及系统。本发明设计了一种新的基于蒙哥马利方法的硬件模乘模块，所述模乘模块在具有较低的资源占用的同时，还能提供更快的执行速度和更高的系统安全性；本发明改进的点乘调度模块是基于所提出的硬件模乘模块，通过预计算和改变计算顺序，最大程度上压缩了数据的依赖路径，减少了运算资源不必要的空闲时钟，提高了执行速度。本发明具体在保证较低资源量的同时，还能提供更快的执行速度和更高的系统安全性的特点。

Description

基于FPGA实现的高效可重构SM2点乘方法及系统

技术领域

本发明属于信息安全技术领域，具体涉及基于FPGA实现的高效可重构SM2点乘方法及系统。

背景技术

近年来，随着计算机和网络技术的发展，电子商务、电子政务、移动支付等活动越来越多，网络的安全和保密性显得尤为重要，且这些网络活动必须保证通信过程中信息传输的真实性、机密性、完整性和不可否认性，从而实现信息的安全可靠传输，因此其安全问题也越来越受到人们的重视。

为实现信息的安全保密，核心手段是利用密码技术加密和保护重要信息。传统的对称密码体制采用相同的密钥对信息进行加解密，其安全性依赖于密钥保护和加密算法的强度，具有简单、高效和资源占用小的优点；但存在密钥分发和管理难、且无法实现某些特定环境下的加密应用。为解决传统对称密码体制的问题，1976年，迪菲(Diffe)和赫尔曼(Hellman)提出了公钥密码的概念。在该体制中，分别利用公钥和私钥对信息进行加密和解密。公钥密码算法相较于传统的对称密码算法，其优点是安全性高，并且可以被用于实现数字签名、密钥交换等场景。缺点是加密速度比分组密码慢很多，且资源占用往往很高，所以学者一直在研究如何提升公钥密码算法实现的性能。

目前，FPGA由于其硬件安全性高、执行速度快、灵活性高等特点，在作为公钥加密算法应用载体上越来越受欢迎。国际上，公钥密码算法主要有两种，一种是RSA，另外一种就是椭圆曲线密码ECC(Elliptic Curve Cryptography)。SM2公钥密码算法是我国对国际ECC公钥密码算法的继承与发展，于2010年发布，属于完全自主设计的加密算法。相较于同为公钥密码算法的ECC，在保证相同的安全性的情况下，SM2执行数学运算的位数更小，因此在资源占用上更具有优势。SM2即使降低了一定的资源占用，但相较于传统对称加密算法，在硬件上的资源增量依旧不可忽视。

因此，设计一种在保证较低资源量的同时，还能提供更快的执行速度和更高的系统安全性，可以被用于在FPGA上实现SM2数字签名、密钥交换实际应用的基于FPGA实现的高效可重构SM2点乘方法及系统，就显得十分重要。

例如，申请号为CN201710625981.2的中国专利文献描述的基于单向和公钥加密算法的密码加密方法与系统，包括：获取用户的登录密码，首先调用哈希算法进行加密，输出新的字符串；其次，调用公钥加密算法利用公钥对新的字符串进行加密，输出密码的密文，传送给后台，后台接受到该密文时，首先调用相同的公钥加密算法利用私钥对密文进行解密，输出一个字符串；最后，哈希算法生成一个随机盐值，并和输出的字符串进行组合，调用哈希加密算法进行哈希，输出新的密文，将该密文存储到数据库中。虽然能够保证用户的登录密码在传输和存储过程中的安全，但是其缺点在于，仍然存在加密速度缓慢且资源占用高的问题。

发明内容

本发明是为了克服现有技术中，传统对称加密算法存在加密速度缓慢且资源占用高的问题，提供了一种在保证较低资源量的同时，还能提供更快的执行速度和更高的系统安全性，可以被用于在FPGA上实现SM2数字签名、密钥交换实际应用的基于FPGA实现的高效可重构SM2点乘方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于FPGA实现的高效可重构SM2点乘方法，包括如下步骤：

S1，对设定的随机数K和椭圆曲线参数点分别进行扫描和转换处理，获得随机数K的比特信息以及将椭圆曲线参数点转换至蒙哥马利域并进行初始化运算；

S2，根据随机数K的比特信息，通过循环模乘和模加减的方式，对转换至蒙哥马利域并进行初始化运算后的椭圆曲线参数点执行倍点和点加减操作，并获得对应的椭圆曲线参数点计算结果；

S3，将步骤S2获得的椭圆曲线参数点计算结果，通过模乘和模加减的方式，变换至射影坐标系，同时再通过模逆方式转换至仿射坐标系，最后再通过模乘方式将椭圆曲线参数点从蒙哥马利域转换至普通域，并将结果输出。

步骤S1包括如下步骤：

S11，返回随机数K二进制形式，并获得首位非零比特数据位置信息；

S12，读取设定的椭圆曲线参数点信息，包括基本点G_x和G_y、曲线参数a和b；

S13，判断读取的椭圆曲线参数点信息是否更改，若否，则直接进入步骤S2；若是，则重新计算椭圆曲线参数点在射影坐标系下的值，并转化至蒙哥马利域后进行存放；

其中，所需初始化的椭圆曲线参数包括X₁＝4xy²、X₂＝(x²-a)²-8bx、M＝4y²、M₂＝M²、A＝aM₂、B＝4bM、G＝G_x、U₁＝2X₂、U₂＝4X₂、X_t＝X₂ ²。

步骤S2包括如下步骤：

S21，计算X₁与X₁相乘以及计算X₁与X₂相减；待并行执行模块PEM1循环第一部分计算结束后，再计算X₁与X₂相减结果的平方，并将结果存放至T寄存器；计算X_t与A相加，并将结果存放至tp3寄存器；待并行执行模块PEM2循环第一部分计算结束后，再计算B与M₂相乘，并将结果更新至B寄存器；计算X_t+X_t+X_t+A的值，并将结果存放至tp1寄存器；计算X₁与X₂相加，并将结果存放至tp2寄存器；计算tp3寄存器内的值与A相加的结果；

S22，待步骤S21中PEM1所有循环结束后，计算U₂与tp3寄存器内的值相乘；待PEM1循环第一部分计算结束后，计算tp1寄存器内的值的平方，并将结果更新至tp1寄存器内；计算X₁的平方+A+tp3寄存器内的值-T寄存器内的值的结果，并待PEM2循环第一部分计算结束后，计算tp2寄存器内的值与所述X₁的平方+A+tp3寄存器内的值-T寄存器内的值的结果相乘，得到结果J1；

S23，待步骤S22中PEM1所有循环结束后，将所述U₂与tp3寄存器内的值相乘结果与B相加，并将结果存放至S寄存器；将T寄存器内的值与S寄存器内的值相乘，获得结果K1，并将结果K1更新至M寄存器；待PEM1循环第一部分计算结束后，计算U₁与S寄存器内的值相乘；待PEM2循环第一部分计算结束后，计算G寄存器内的值与M寄存器内的值相乘，并将结果更新至G寄存器内；计算B寄存器内的值与结果J1相加，得到结果J2；

S24，待步骤S23中PEM1所有循环结束后，计算M寄存器内的值的平方，并将结果更新至M₂寄存器；待PEM1循环第一部分计算结束后，将S寄存器内的值与结果J2相乘，获得结果J3以及将tp1寄存器内的值与结果K1进行相减，获得结果K2；待PEM2循环第一部分计算结束后，计算T寄存器内的值与结果K2相乘，并将结果更新至X₂寄存器；

S25，待步骤S24中PEM1所有循环结束后，计算曲线参数a与M₂寄存器内的值相乘，并将结果更新至A寄存器；待PEM1循环第一部分计算结束后，计算B寄存器内的值与M寄存器内的值相乘，并将结果更新至B寄存器；将结果J3与G寄存器内的值相减，并将结果更新至X₁寄存器；待PEM2循环第一部分计算结束后，判断随机数K的下一比特是否为1；若为1，则计算X₁与X₁相乘，并将结果更新至X_t寄存器，同时计算X₁与X₁相加，并将结果更新至U₁寄存器，再计算2X₁与2X₁相加，并将结果更新至U₂寄存器；若否，则计算X₂与X₂相乘，并将结果更新至X_t寄存器，同时计算X₂与X₂相加，并将结果更新至U₁寄存器，再计算2X₂与2X₂相加，并将结果更新至U₂寄存器。

作为优选，步骤S3包括如下步骤：

S31，读取步骤S2生成的椭圆曲线参数点信息，利用循环生成的最后一轮椭圆曲线参数点信息，通过模乘和模加减的方式，变换至射影坐标系，同时再通过模逆方式转换至仿射坐标系，最后再通过模乘方式将椭圆曲线参数点从蒙哥马利域转换至普通域，并发送至输出缓存区，完成一次点乘计算。

作为优选，步骤S2中所示循环模乘方式包括如下步骤：

S201，数据输入包括三次模乘法所需的三对输入A1和B1、A2和B2、A3和B3，基于模数所得的蒙哥马利参数q和模数p；

S202，数据输出为蒙哥马利模乘的结果OUT；

其中，内部计算参数包括C1、C2、C3、C4、bq₁、bq₂、bq₃、t₁、t₂、t₃、t₄、z₁、z₂、z₃；

S203，设定处理数据位宽为256位，分组长度r为29bit，分组数m为9，数据输入在内部被分组为B1(b₁₈,b₁₇,b₁₆,b₁₅,b₁₄,b₁₃,b₁₂,b₁₁,b₁₀)、A1(a₁₈,a₁₇,a₁₆,a₁₅,a₁₄,a₁₃,a₁₂,a₁₁,a₁₀)、B2(b₂₈,b₂₇,b₂₆,b₂₅,b₂₄,b₂₃,b₂₂,b₂₁,b₂₀)、A2(a₂₈,a₂₇,a₂₆,a₂₅,a₂₄,a₂₃,a₂₂,a₂₁,a₂₀)、B3(b₃₈,b₃₇,b₃₆,b₃₅,b₃₄,b₃₃,b₃₂,b₃₁,b₃₀)、A3(a₃₈,a₃₇,a₃₆,a₃₅,a₃₄,a₃₃,a₃₂,a₃₁,a₃₀)；

S204，采用PEM处理计算模乘的分步运算，包括如下运算过程：

分步1，计算b_i0与q相乘，i＝1,2,3；

分步2，计算c_i0与q相乘、a_i0与bq_i相乘以及两者结果的和，i＝1,2,3；

分步3，计算a_i0与b_ij相乘，t_k与p_j相乘以及两者结果与c_kj和z_k的加法，i＝1,2,3、j＝0,1,2,3,4,5,6,7,8、k＝1,2,3。

本发明还提供了基于FPGA实现的高效可重构SM2点乘系统，包括：

数据扫描模块，用于对设定的随机数K进行扫描，获得随机数K的比特信息；

数据转换模块，用于对椭圆曲线参数点进行转换处理，将椭圆曲线参数点转换至蒙哥马利域并进行初始化运算；

模乘模块，用于将两个参数点相乘；

模加减模块，用于将两个参数点相加和相减；

点乘调度模块，用于根据随机数K的比特信息，循环调用模乘模块和模加减模块执行倍点和点加减操作；

模逆模块，用于将射影坐标系的椭圆曲线参数点，转换至仿射坐标系的椭圆曲线参数点。

作为优选，所述模逆模块包括两个并行运算的模加减模块；其中一个模加减模块，与点乘调度模块共享。

作为优选，所述模乘模块包括3个并行执行模块PEM；所述PEM用于处理计算模乘的分步运算，采用多级流水线并行结构，包括乘法器并行阵列、压缩单元以及由超前进位链实现的行波进位加法器；所述乘法器包括数字信号处理DSP或查找表LUTs。

作为优选，所述模乘模块内部还设有寄存器组；所述寄存器组分为共享寄存器组和私有寄存器组；所述共享寄存器组供所有PEM访问；所述私有寄存器组供对应的PEM访问。

本发明与现有技术相比，有益效果是：(1)本发明设计了一种新的基于蒙哥马利方法的硬件模乘模块，所述模乘模块在具有较低的资源占用的同时，运行速度上也具有一定的优势；(2)本发明改进的点乘调度模块是基于所提出的硬件模乘模块，通过预计算和改变计算顺序，最大程度上压缩了数据的依赖路径，减少了运算资源不必要的空闲时钟，提高了执行速度；(3)本发明架构具有很高的可重构性，支持多种运算位长，如256位/384位/512位，同时，本发明是针对通用素数进行优化设计的，而非某些长度下的某一特定素数，因此在实际应用中对椭圆曲线参数选择上十分灵活。

附图说明

图1为本发明中基于FPGA实现的高效可重构SM2点乘系统的一种原理框图；

图2为本发明中点乘调度模块内部数据处理关系的一种示意图；

图3为本发明中模乘模块的一种结构示意图；

图4为本发明中模加减模块的一种执行流程图；

图5为本发明中模加减模块的一种结构示意图；

图6为本发明实施例所提供的模乘过程中单个PEM执行过程算法的一种程序代码图。

图中：数据扫描模块1、数据转换模块2、模乘模块3、模加减模块4、点乘调度模块5、模逆模块6。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

本发明基于FPGA实现的高效可重构SM2点乘方法，包括如下步骤：

本发明所提出的基于FPGA实现的改进蒙哥马利模乘模块，其数据输入包括三次模乘法所需的三对输入A1和B1、A2和B2、A3和B3，基于模数所得的蒙哥马利参数q和模数p；数据输出为蒙哥马利模乘的结果OUT；内部计算参数包括C1、C2、C3、C4、bq₁、bq₂、bq₃、t₁、t₂、t₃、t₄、z₁、z₂、z₃等。设定其处理数据位宽为256位，由于分组长度r为29bit，则分组数m为9，因此其数据输入在内部被分组为B1(b₁₈,b₁₇,b₁₆,b₁₅,b₁₄,b₁₃,b₁₂,b₁₁,b₁₀)、A1(a₁₈,a₁₇,a₁₆,a₁₅,a₁₄,a₁₃,a₁₂,a₁₁,a₁₀)、B2(b₂₈,b₂₇,b₂₆,b₂₅,b₂₄,b₂₃,b₂₂,b₂₁,b₂₀)、A2(a₂₈,a₂₇,a₂₆,a₂₅,a₂₄,a₂₃,a₂₂,a₂₁,a₂₀)、B3(b₃₈,b₃₇,b₃₆,b₃₅,b₃₄,b₃₃,b₃₂,b₃₁,b₃₀)、A3(a₃₈,a₃₇,a₃₆,a₃₅,a₃₄,a₃₃,a₃₂,a₃₁,a₃₀)，其余参数如p和C1、C2、C3、C4也按上述规则分组。数据输入被拆分为多组进行迭代运算，能同时计算三个模乘。其模块内部的硬件FPGA实现包括三个PEM(并行执行模块)以及相关的控制逻辑。模乘模块内部的寄存器组分为共享寄存器组(share registers)和私有寄存器组(private registers)，对于共享寄存器组，所有PEM均可以访问；对于私有寄存器，仅其对应的PEM可以访问。

PEM用于处理计算模乘的分步运算，其硬件结构为多级流水线并行结构，由乘法器(可以由数字信号处理单元(DSP)或查找表LUTs实现)并行阵列、压缩单元以及由超前进位链实现的行波进位加法器构成。在执行不同参数的计算时，其关键路径存在差异，分为三种情况：(1)计算b_i0与q相乘(i＝1,2,3)；(2)计算c_i0与q相乘、a_i0与bq_i相乘以及两者结果的和(i＝1,2,3)；(3)计算a_i0与b_ij相乘，t_k与p_j相乘以及结果与c_kj和z_k的加法(i＝1,2,3、j＝0,1,2,3,4,5,6,7,8、k＝1,2,3)。具体过程如下：

当PEM内部计算b_i0与q相乘(i＝1,2,3)时，为2级流水线，此时第一级流水线由12个并行执行的乘法器构成；第二级流水线由4-2压缩电路和行波进位加法器构成。

当PEM内部计算c_i0与q相乘、a_i0与bq_i相乘以及两者结果的和(i＝1,2,3)时，或当PEM内部计算a_i0与b_ij相乘，t_k与p_j相乘以及结果与c_kj和z_k的加法(i＝1,2,3、j＝0,1,2,3,4,5,6,7,8、k＝1,2,3)时，为3级流水线，第一级流水线为12个并行执行的乘法器；第二级流水线由9-2压缩电路构成；第三级流水线由一个3-2压缩电路和一个行波进位加法器构成。

模乘运算硬件单元内部的多个PEM之间的协作执行关系如以下步骤所示：

步骤1，PEM1执行B1最低的r位b₁₀与q相乘，并将结果写入共享寄存器组bq₁；7个时钟后，PEM2执行B2最低的r位b₂₀与q相乘，并将结果写入共享寄存器组bq₂；7个时钟后，PEM3执行B3最低的r位b₃₀与q相乘，并将结果写入共享寄存器组bq₃。

步骤2，待步骤1的PEM1计算结束后，PEM1开始同时执行c₁₀与q相乘、a₁₀与bq₁相乘并计算两者的和，其结果写入共享寄存器组tp₁；待步骤1的PEM2计算结束后，PEM2开始同时执行c₂₀与q相乘、a₂₀与bq₂相乘并计算两者的和，其结果写入共享寄存器组tp₂；待步骤1的PEM3计算结束后，PEM3开始同时执行c₃₀与q相乘、a₃₀与bq₃相乘并计算两者的和，其结果写入共享寄存器组tp₃。

步骤3，t₁寄存器更新tp₁寄存器的值，PEM1循环执行a₁₀与b_1i相乘，t₁与p_i相乘以及结果与c_1i和z₁的加法(i＝0,1,2,3,4,5,6,7,8)，即A1最低位的一个分组与B1的运算，每次得到的结果S的低r位写入共享寄存器组c_2i，高r+1位写入PEM1的私有寄存器组z₁；此外，当待处理的分组标识i等于流水线级数加1，即4时，此时c₂₀结果已更新，PEM1该轮次不再执行a₁₀与b_1i相乘，t₁与p_i相乘以及结果与c_1i和z₁的加法，而是改为执行c₂₀与q相乘、a₁₁与bq₁相乘，该结果写入共享寄存器组t₂，并将tp₂的值赋给t₁寄存器。

步骤4，当步骤3中PEM1的i等于流水线级数加1情况的计算结束后，PEM1继续执行a₁₀与b_1i相乘，t₁与p_i相乘以及结果与c_1i和z₁的加法，PEM2开始执行a₁₁与b_1j相乘，t₂与p_j相乘以及结果与c_2j和z₂的加法(j＝0,1,2,3,4,5,6,7,8)，即A1第二个分组与B1的运算，每次得到的结果S的低r位写入共享寄存器组c_3j，高r+1位写入PEM2的私有寄存器组z₂；同样，当待处理的分组标识j等于流水线级数加1时，PEM2该轮次改为执行c₃₀与q相乘、a₁₂与bq₁相乘，该结果写入共享寄存器组t₃。当PEM2上述计算结束后，PEM3开始执行a₁₂与b_1k相乘，t₃与p_k相乘以及结果与c_3k和z₃的加法(k＝0,1,2,3,4,5,6,7,8)，即A1第三个分组与B1的运算。

步骤5，当PEM1执行完a₁₀与b_1i相乘，t₁与p_i相乘以及结果与c_1i和z₁的加法后，将tp₂的值赋给t₁寄存器，开始循环执行a₂₀与b_2i相乘，t₁与p_i相乘以及与c_1i和z₁的加法，即A2最低位的一个分组与B2的运算，每次得到的结果S的低r位写入共享寄存器组c_2i，高r+1位写入PEM1的私有寄存器组z₁。PEM2、PEM3也同样如此，上述循环结束，PEM2开始执行a₂₁与b_2j相乘，t₂与p_j相乘以及与c_2j和z₂的加法；PEM3开始执行a₂₂与b_2k相乘，t₃与p_k相乘以及与c_3k和z₃的加法。

步骤6，3个PEM开始并行计算三个模乘法的前三个低位分组。当相应模乘输入的前三分组全部计算结束，待PEM1空闲后，开始计算三个模乘法的下三个分组：即PEM1处理a_j3(j＝1,2,3)与b_ji(i＝0,1,2,3,4,5,6,7,8)相乘，t₁与p_i相乘以及结果与c_1i和z₁的加法；PEM2处理a_j4(j＝1,2,3)与b_ji(i＝0,1,2,3,4,5,6,7,8)相乘，t₂与p_i相乘以及结果与c_2i和z₂的加法；PEM3处理a_j5(j＝1,2,3)与b_ji(i＝0,1,2,3,4,5,6,7,8)相乘，t₃与p_i相乘以及结果与c_3i和z₃的加法。其过程调度与步骤3，4，5相同，仅计算的输入分组不同。最后的结果为PEM3执行每个模乘的最后一个分组所得到的C4寄存器组中的值，即处理a_j8(j＝1,2,3)与b_ji(i＝0,1,2,3,4,5,6,7,8)相乘，t₃与p_i相乘以及结果与c_3i和z₃的加法所求得的结果。

模乘模块不需要等待所有模乘计算结束，只需等待第一个模乘输入全部分组计算结束，即可接受第四个模乘，依次类推。

模乘过程中单个PEM执行过程如图6所示，图6中对于PEM1，i＝1；对于PEM2，i＝2；对于PEM3，i＝3。

进一步的，步骤S1包括如下步骤：

其中，所需初始化的椭圆曲线参数包括X₁＝4xy²、X₂＝(x²-a)²-8bx、M＝4y²、M₂＝M²、A＝aM₂、B＝4bM、G＝G_x、U₁＝2X₂、U₂＝4X₂、X_t＝X₂ ²。所有参数被存放至寄存器或BRAM中。X₁、X₂、M、M₂、A、B、G、U₁、U₂、X_t均表示寄存器。参数a具体表示为椭圆曲线的长半轴，参数b具体表示为椭圆曲线的短半轴；x和y则表示椭圆曲线上各个点的横纵坐标数值。

步骤S1中，数据扫描模块被配置为处理点乘中的随机数参数K，返回该数二进制形式的首位非零比特数据位置信息。如K为7，则返回随机数K的首位非零比特数据位为3。随机数K的比特数长度支持256位以内。

数据转换模块具体有变换与反变换两种模式，在步骤S1中执行的是变换操作。

步骤S2中，点乘调度模块被配置为控制模乘模块和模加减模块计算点乘过程中每一轮次的参数值。在本实施例中，K为7，则该点乘调度模块共执行3次。如图2所示，本发明所提出的改进点乘调度，其每次循环执行过程包括以下步骤：

S21，计算X₁与X₁相乘以及计算X₁与X₂相减；待并行执行模块PEM1循环第一部分计算结束后(即PEM1循环执行a_j0与b_1i相乘，t_j与p_i相乘以及结果与c_ji和z_j的加法的计算操作)，再计算X₁与X₂相减结果的平方，并将结果存放至T寄存器；计算X_t与A相加，并将结果存放至tp3寄存器；待并行执行模块PEM2循环第一部分计算结束后，再计算B与M₂相乘，并将结果更新至B寄存器；计算X_t+X_t+X_t+A的值，并将结果存放至tp1寄存器；计算X₁与X₂相加，并将结果存放至tp2寄存器；计算tp3寄存器内的值与A相加的结果；

经过上述步骤，1比特位的点乘运算结束，基于随机数K的所有比特位信息，循环执行相应次数。

其中，图2点乘调度过程中所涉及模乘法器和模加减器均只有一个，图2中所展示模乘符号的三个输出在硬件实现上实际是由一个输出端口在不同时刻下依次输出的，即对应图3中的OUT。同时由于模乘单元的p和q，如图3所示，在点乘调度过程中是固定的，因此在图2的模乘模块输入中并未展示。每个Level以模乘模块的六个输入全部刷新结束为区分，同时每个Level之间存在若干个模加减操作，均是由一个模加减器反复执行得出的。

如图3所示，模乘模块用于计算模乘结果，即C＝A×B mod p。在本实施例的架构中，采用蒙哥马利模乘方法实现的所需的模乘模块，改进的蒙哥马利模乘模块的硬件结构如图3所示。

模乘运算硬件模块执行步骤如下所示：

本实施例展示的是256bit的模乘模块，因此采用的数据分组位数为r＝29，分组数w＝9。若重构为更高位数，则分组数也应增加。同时，单比特位的点乘运算需要执行15次模乘，由于模乘模块被设计为同时执行三个模乘，因此上述模乘模块运算过程需要执行5次，仅输入的数据不同。

模加减模块用于计算模加或模减结果，即C＝A+B mod p或C＝A-B mod p。如图4和图5所示，在本实施例的架构中，当mode为1时，执行模加运算；当mode为0时，执行模减运算。底层运算单元是一个带进位的128bit加法器。

如图5所示的模加减模块硬件结构示意图展示的是计算位宽为256bit时的结构，若重构成更高位数，则底层运算模块也应相应增加。

进一步的，步骤S3中，数据转换模块执行的是反变换操作。步骤S3还包括如下步骤：

基于本实施例，如图1所示，本发明还提供了基于FPGA实现的高效可重构SM2点乘系统，包括：

数据扫描模块1，用于对设定的随机数K进行扫描，获得随机数K的比特信息；

数据转换模块2，用于对椭圆曲线参数点进行转换处理，将椭圆曲线参数点转换至蒙哥马利域并进行初始化运算；

模乘模块3，用于将两个参数点相乘；

模加减模块4，用于将两个参数点相加和相减；

点乘调度模块5，用于根据随机数K的比特信息，循环调用模乘模块和模加减模块执行倍点和点加减操作；

模逆模块6，用于将射影坐标系的椭圆曲线参数点，转换至仿射坐标系的椭圆曲线参数点。

进一步的，所述模逆模块包括两个并行运算的模加减模块；其中一个模加减模块，与点乘调度模块共享。

模逆模块用于计算模逆结果，即C＝A^-1mod p。本实施例中采用蒙哥马利模逆算法实现所需的模逆模块。所示模逆模块需要两个并行运算的模加减模块，因此，除了模逆模块自身所含有的一个模加减模块，还会与点乘调度模块共享一个模加减模块。

另外，图1中的输入缓存区和输出缓存区并不是必须的。

本发明设计了一种新的基于蒙哥马利方法的硬件模乘模块，所述模乘模块在具有较低的资源占用的同时，运行速度上也具有一定的优势；本发明改进的点乘调度模块是基于所提出的硬件模乘模块，通过预计算和改变计算顺序，最大程度上压缩了数据的依赖路径，减少了运算资源不必要的空闲时钟，提高了执行速度；本发明架构具有很高的可重构性，支持多种运算位长，如256位/384位/512位，同时，本发明是针对通用素数进行优化设计的，而非某些长度下的某一特定素数，因此在实际应用中对椭圆曲线参数选择上十分灵活。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于FPGA实现的高效可重构SM2点乘方法，其特征在于，包括如下步骤；

S3，将步骤S2获得的椭圆曲线参数点计算结果，通过模乘和模加减的方式，变换至射影坐标系，同时再通过模逆方式转换至仿射坐标系，最后再通过模乘方式将椭圆曲线参数点从蒙哥马利域转换至普通域，并将结果输出；

步骤S1包括如下步骤；

其中，所需初始化的椭圆曲线参数包括X₁＝4xy²、X₂＝(x²-a)²-8bx、M＝4y²、M₂＝M²、A＝aM₂、B＝4bM、G＝G_x、U₁＝2X₂、U₂＝4X₂、X_t＝X₂ ²；

步骤S2包括如下步骤：

2.根据权利要求1所述的基于FPGA实现的高效可重构SM2点乘方法，其特征在于，步骤S3包括如下步骤：

3.根据权利要求1所述的基于FPGA实现的高效可重构SM2点乘方法，其特征在于，步骤S2中所示循环模乘方式包括如下步骤：

S202，数据输出为蒙哥马利模乘的结果OUT；

S204，采用PEM处理计算模乘的分步运算，包括如下运算过程：

分步1，计算b_i0与q相乘，i＝1,2,3；

4.基于FPGA实现的高效可重构SM2点乘系统，其特征在于，包括：

模乘模块，用于将两个参数点相乘；

模加减模块，用于将两个参数点相加和相减；

5.根据权利要求4所述的基于FPGA实现的高效可重构SM2点乘系统，其特征在于，所述模逆模块包括两个并行运算的模加减模块；其中一个模加减模块，与点乘调度模块共享。

6.根据权利要求4所述的基于FPGA实现的高效可重构SM2点乘系统，其特征在于，所述模乘模块包括3个并行执行模块PEM；所述PEM用于处理计算模乘的分步运算，采用多级流水线并行结构，包括乘法器并行阵列、压缩单元以及由超前进位链实现的行波进位加法器；所述乘法器包括数字信号处理DSP或查找表LUTs。

7.根据权利要求6所述的基于FPGA实现的高效可重构SM2点乘系统，其特征在于，所述模乘模块内部还设有寄存器组；所述寄存器组分为共享寄存器组和私有寄存器组；所述共享寄存器组供所有PEM访问；所述私有寄存器组供对应的PEM访问。