CN104536913B

CN104536913B - 一种基于多块ram的大数运算电路的数据转移方法

Info

Publication number: CN104536913B
Application number: CN201410749759.XA
Authority: CN
Inventors: 刘奇浩; 孙晓宁; 刘大铕; 王运哲; 赵阳
Original assignee: Shandong Sinochip Semiconductors Co Ltd
Current assignee: Shandong Sinochip Semiconductors Co Ltd
Priority date: 2014-12-10
Filing date: 2014-12-10
Publication date: 2017-07-28
Anticipated expiration: 2034-12-10
Also published as: CN104536913A; WO2016091166A1

Abstract

本发明的基于多块RAM的大数运算电路，包括CPU、运算模块Operator Core以及5块存储器RAM；特征在于：所述5块存储器RAM的数据和地址线总线经不同的多路选择器与运算模块Operator Core和CPU选择性连通；在大数运算过程中无需频繁占用总线。在256位大数的点加、倍点和点乘运算过程中，CPU只需将待运算数据和参数写入至5个存储器RAM的相应位置，然后由运算模块Operator Core经多路选择器读取数据进行运算即可，运算结束后将运算结果写入至存储器RAM中，CPU再将运算结果读出即可。整个运算过程无需频繁占用BUS总线，不易造成数据存储时的堵塞，保证了运算的高效性。

Description

一种基于多块RAM的大数运算电路的数据转移方法

技术领域

本发明涉及一种基于多块RAM的大数运算电路的数据转移方法，更具体的说，尤其涉及一种可避免对总线的频繁占用和数据调用时数据堵塞的基于多块RAM的大数运算电路的数据转移方法。

背景技术

目前基于有限域上椭圆曲线离散对数问题的非对称密码算法ECC（EllipticCurve Cryptography）被公认为是最高比特强度的公钥密码体制，广泛应用于快速加密、密钥交换、身份验证、数字签名、保密通信等领域。椭圆曲线公钥密码算法作为ECC算法中的一种，加密强度可采用256位，安全性高、存储空间小，可以快速完成签名、密钥交换以及加密应用。

有限域运算层的主要功能是提供算法所需要的数论运算支持，包括256位大整数模加、模减、模乘、模逆、模幂、比较运算。有限域运算作为算法实现最基础的部分，其运算效率将对整个密码系统的效率起决定性作用。所发明所涉及的数据转移方法适用于256位模加、模减、模乘、比较运算。

同时，将有限域运算层的各种基础运算按照一定的规则进行排序后，即可构成椭圆曲线运算层的各种算法，包括点加、倍点、点乘、坐标转换。所设计的数据转移方法适用于256位点加、倍点、点乘运算。这种数据转移方法适用于基数在素数域中Jacobian加重射影坐标系下的椭圆曲线公钥密码算法。

一次完整的点乘运算过程需要调用大量的底层运算，因此可以通过对硬件资源分配方式的优化提升椭圆曲线密码算法的运算性能。如图1所示，目前多数SOC系统中采用RAM、运算单元分别连接在总线上的方式，由于运算模块中存储空间的限制，运算结果需要通过系统总线转移到RAM中，进行后续计算时，需要再次将中间结果通过总线BUS转移到运算单元中，频繁占用总线。如中国第CN200510130627.X发明采用32个子寄存器构成寄存器堆作为数据暂存单元，缓解大数模运算过程中寄存器堆的复用问题。但是上述发明受运算所限制，只能支持模运算，对上层运算产生的中间变量则无能为力。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种基于多块RAM的大数运算电路的数据转移方法。

本发明的基于多块RAM的大数运算电路，包括CPU、运算模块Operator Core以及5块存储器RAM；其特别之处在于：所述5块存储器RAM的数据和地址线总线经不同的多路选择器与运算模块Operator Core和CPU选择性连通；在大数运算过程中，运算模块OperatorCore直接从5块存储器RAM中读取待运算数据、暂存中间数据以及保存运算结果，无需占用存储器RAM与CPU之间的总线，运算结束后，CPU直接从存储器RAM中取出运算结果。

本发明的基于多块RAM的大数运算电路，所述运算模块Operator Core、CPU与存储器RAM之间的连接总线包括32位数据线和11位地址线；11位地址线的高3位对5块存储器RAM进行选取，低8位对存储器RAM中的8bit存储单元进行寻址。

本发明的基于多块RAM的大数运算电路的数据转移方法，5块存储器RAM分别为RAM_A、RAM_B、RAM_M、RAM_R和RAM_Q，设待点加运算的原始操作数a和b的坐标分别为(Opr_a_x， Opr_a_y， Opr_a_z)、(Opr_b_x， Opr_b_y， Opr_b_z)；

ECC算法的256位点加运算通过以下步骤来实现：

a-1).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值Opr_a_x， Opr_a_y， Opr_a_z分别写入至RAM_A的0x00、0x20和0x40地址，将b的坐标值Opr_b_x， Opr_b_y，Opr_b_z分别写入至RAM_B的0x00、0x20和0x40地址，并在RAM_A的0x60地址存储Opr_b_z，在RAM_B的0x60地址存储Opr_a_z；CPU将相关参数模值m存储至RAM_M的0x00地址，将相关参数乘法辅助值R写入到存储器RAM_R的0x00地址；以方便运算模块Operator Core进行取值；b-1).中间结果的写入，在运算模块Operator Core进行点加运算的过程中，通过多路选择器直接从存储器RAM中读取数据和存储中间结果，无需占用存储器RAM与CPU之间的总线；中间结果Opr_t1存储至RAM_A的0x80地址，中间结果Opr_t2分别存储至RAM_A的0xa0地址和RAM_B的0x80地址，以备运算模块Operator Core对中间结果进行调用；c-1).最终结果的写入，运算结束后，运算模块Operator Core将运算结果存储在RAM_B的0x00、0x20和0x40地址，CPU通过多路选择器从RAM_B中读取结果即可。

本发明的基于多块RAM的大数运算电路的数据转移方法，设待倍点运算的点a的坐标为(Opr_a_x， Opr_a_y，Opr_a_z)，ECC算法的256位倍点运算通过以下步骤来实现：

a-2).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值Opr_a_x、Opr_a_y和Opr_a_z分别写入至RAM_A和RAM_B的0x00、0x20和0x40地址；CPU将相关参数模值m存储至RAM_M的0x00地址，将相关参数乘法辅助值R写入到存储器RAM_B的0x00地址，倍点运算辅助值a写入至存储器RAM_R的0x20地址；以方便运算模块Operator Core进行取值；b-2).中间结果的写入，在倍点运算的过程中，运算模块Operator Core直接经多路选择器读取和存储数据，将中间结果Opr_t1存储至RAM_A的0x60和RAM_B的0x60地址中，将中间结果Opr_t2存储至RAM_A的0x80和RAM_B的0x80地址中，以便算模块Operator Core对中间结果进行调用；c-2).最终结果的写入，运算结束后，运算模块Operator Core将运算结果存储在RAM_B的0x00、0x20和0x40地址，CPU通过多路选择器从RAM_B读取结果即可。

本发明的基于多块RAM的大数运算电路的数据转移方法，设待点乘运算的原始操作数a的坐标为（1Px， 1Py， 1Pz）ECC算法的256位点乘运算通过以下步骤来实现：

a-3).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值1Px, 1Py和1Pz写入到数据存储器RAM_M的0x20、0x40、0x60地址，将原始操作数k写入到数据存储器RAM_M的0xe0地址；将相关参数模值m写入到数据存储器RAM_M的0x00地址，相关参数乘法辅助值R写入到数据存储器RAM_R的0x00地址，倍点运算辅助值a写入到数据存储器RAM_R的0x20地址；b-3).中间结果的写入，在运算过程中，运算模块Operator Core通过多路选择器进行数据的读取和存储，中间运算操作数a的x、y、z值写入到数据存储器RAM_A的0x00、0x20、0x40地址；中间运算操作数b的x、y、z值写入到数据存储器RAM_B的0x00、0x20、0x40地址；中间运算结果5倍点的x、y、z写入到数据存储器RAM_M的0x80、0xa0、0xc0地址；中间运算结果9倍点的x、y、z写入到数据存储器RAM_R的0x40、0x60、0x80地址；中间运算结果13倍点的x、y、z写入到数据存储器RAM_R的0xa0、0xc0、0xe0地址；中间运算结果Pu点的x、y、z写入到数据存储器RAM_B的0xa0、0xc0、0xe0地址；中间运算过程备份参数a_b写入到数据存储器RAM_A的0xa0地址；中间运算过程非邻接表达式参数高256位kp_h写入到数据存储器RAM_A的0xc0地址，低256位kp_l写入到数据存储器RAM_A的0xe0地址；中间运算结果写入到数据存储器RAM_A、RAM_B的0x60、0x80地址；c-3).最终结果的写入，运算结束后，运算模块OperatorCore将运算结果存储在RAM_Q的0x00、0x20和0x40地址，CPU通过多路选择器从RAM_Q读取结果即可。

本发明的有益效果是：本发明的基于多块RAM的大数运算电路，运算模块OperatorCore和CPU的数据和地址总线通过多路选择器与多个存储器RAM选择性连通，在256点大数运算过程中，运算模块Operator Core通过多路选择器进行数据的读取和存储，无需占用存储器RAM与CPU之间总线，避免了对系统内部总线的频繁占用，提高了运算效率。

通过将存储器RAM的数量设置为5个，并将原始数据、相关参数、中间结果和最终结果在5个存储器RAM中进行合理性存储，避免了运算时的数据堵塞，有效地实现了256位大数的点加、倍点和点乘运算。

本发明的基于多块RAM的大数运算电路和数据转移方法的优点体现在：

（1）通过将RAM直接挂接到运算模块上，并采用一种基于多块RAM的数据转移方法，克服了运算过程中产生的中间结果由于存储空间不够的原因，造成的频繁占用系统内部数据总线的情况；

（2）通过将数据存储器RAM进行合理的分块，在当前运算操作下不会对同一块RAM进行读写操作，避免了数据调度顺序不合理出现的数据阻塞；

（3）在进行运算的全过程中，CPU不需要进行参与，只在运算开始前写入原始数据，并在运算完成后读出运算结果，降低了对CPU的载荷；

（4）按照本方法对运算过程中产生的中间结果的分配方法，可以采用单端口RAM设计SM2算法相关的运算单元，减小了因为采用双端口RAM造成的额外面积开销；

（5）本设计在点乘运算操作下，适用于固定点与非固定点点乘，可以充分利用内部存储空间，最多可以存储预计算过程中产生的四个点，通用性强。

附图说明

图1为现有大数运算电路的原理图；

图2为本发明的基于多块RAM的大数运算电路的原理图；

图3为本发明的大数运算电路在点加运算时各RAM的数据存储示意图；

图4为本发明的大数运算电路在倍点运算时各RAM的数据存储示意图；

图5为本发明的大数运算电路在点乘运算时各RAM的数据存储示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示，给出了现有大数运算电路的原理图，所示的运算模块Operator Core和RAM挂接于系统内部总线BUS上，其由三部分构成，分别为：总线数据接口BUS_Data、数据存储模块RAM、运算模块Operator Core。总线上的数据通过BUS_Data进行交互，运算模块Operator Core启动前，待运算操作数以及相关参数通过BUS_Data接口被写入到相应的数据存储模块RAM中；运算电路Operator Core完成后，运算结果通过BUS_Data被读出到总线BUS上。数据存储模块RAM负责存储初始操作数、运算中间结果、运算完成结果。这种结构形式的运算电路，运算模块Operator Core从存储器RAM读取、写入数据的过程中，均需占用BUS总线，不能保证大数运算的高效进行。

如图2所示，给出了本发明的基于多块RAM的大数运算电路的原理图，其由运算模块Operator Core、CPU和多块存储器RAM组成，所示的运算模块Operator Core和CPU通过多路选择器与存储器RAM相连接，以使得存储器RAM与运算模块Operator Core和CPU选择性连通。在256位大数的运算过程中，存储器RAM的数量选取为5个，CPU和运算模块OperatorCore与存储器RAM相连接的总线包括32位数据线和11位地址线，11位地址线的高3位对5块存储器RAM进行选取，低8位对存储器RAM中的8bit存储单元进行寻址。

在256位大数的点加、倍点和点乘运算过程中，CPU只需将待运算数据和参数写入至5个存储器RAM的相应位置，然后由运算模块Operator Core经多路选择器读取数据进行运算即可，运算结束后Operator Core将运算结果写入至存储器RAM中，CPU再将运算结果读出即可。整个运算过程无需频繁占用BUS总线，不易造成数据存储时的堵塞，保证了运算的高效性。

如图3所示，给出了本发明的大数运算电路在点加运算时各RAM的数据存储示意图，5块存储器RAM分别为RAM_A、RAM_B、RAM_M、RAM_R和RAM_Q，设待点加运算的原始操作数a和b的坐标分别为(Opr_a_x， Opr_a_y， Opr_a_z)、(Opr_b_x， Opr_b_y， Opr_b_z)；

ECC算法的256位点加运算通过以下步骤来实现：

a-1).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值Opr_a_x， Opr_a_y， Opr_a_z分别写入至RAM_A的0x00、0x20和0x40地址，将b的坐标值Opr_b_x， Opr_b_y，Opr_b_z分别写入至RAM_B的0x00、0x20和0x40地址，并在RAM_A的0x60地址存储Opr_b_z，在RAM_B的0x60地址存储Opr_a_z；CPU将相关参数模值m存储至RAM_M的0x00地址，将相关参数乘法辅助值R写入到存储器RAM_R的0x00地址；以方便运算模块Operator Core进行取值；

b-1).中间结果的写入，在运算模块Operator Core进行点加运算的过程中，通过多路选择器直接从存储器RAM中读取数据和存储中间结果，无需占用存储器RAM与CPU之间的总线；中间结果Opr_t1存储至RAM_A的0x80地址，中间结果Opr_t2分别存储至RAM_A的0xa0地址和RAM_B的0x80地址，以备运算模块Operator Core对中间结果进行调用；

c-1).最终结果的写入，运算结束后，运算模块Operator Core将运算结果存储在RAM_B的0x00、0x20和0x40地址，CPU通过多路选择器从RAM_B中读取结果即可。

为了方便起见，a、b点的坐标(Opr_a_x， Opr_a_y， Opr_a_z)、(Opr_b_x， Opr_b_y， Opr_b_z)分别用（x₁,y₁,z₁）、（x₂,y₂,z₂）表示，中间结果Opr_t1、Opr_t2分别用t1、t2表示，点加运算过程为：

t₁=z₁*z₁；x₂=x₂*t₁；t₁=z₁*t₁；y₂=y₂*t₁；t₁=z₂*z₂；

t₂=x₁*t₁；t₁=z₂*t₁；t₁=y₁*t₁；t₁=2t₁；t₁=y₂+t₁；

x₂=x₂-t₂；t₂=2*t₂；t₂=x₂+t₂；z₂=z₂*x₂；t₁=x₂*t₁；

x₂=x₂*x₂；t₂=x₂*t₂；t₁=x₂*t₁；x₂=y₂*y₂；x₂=x₂-t₂；

t₂=t₂-x₂；t₂=t₂-x₂；t₂=t₂*y₂；y₂=t₂-t₁；y₂= y₂/2；

上述各公式均为模运算。

由此可见，对原始操作数和相关参数采用如图3所示的存储形式，既方便了运算过程中数据的调用和存储，有避免了所用数据的覆盖，保证了点加运算的高效性。

如图4所示，给出了本发明的大数运算电路在倍点运算时各RAM的数据存储示意图，设待倍点运算的点a的坐标为(Opr_a_x， Opr_a_y，Opr_a_z)，ECC算法的256位倍点运算通过以下步骤来实现：

a-2).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值Opr_a_x、Opr_a_y和Opr_a_z分别写入至RAM_A和RAM_B的0x00、0x20和0x40地址；CPU将相关参数模值m存储至RAM_M的0x00地址，将相关参数乘法辅助值R写入到存储器RAM_B的0x00地址，倍点运算辅助值a写入至存储器RAM_R的0x20地址；以方便运算模块Operator Core进行取值；

b-2).中间结果的写入，在倍点运算的过程中，运算模块Operator Core直接经多路选择器读取和存储数据，将中间结果Opr_t1存储至RAM_A的0x60和RAM_B的0x60地址中，将中间结果Opr_t2存储至RAM_A的0x80和RAM_B的0x80地址中，以便算模块Operator Core对中间结果进行调用；

c-2).最终结果的写入，运算结束后，运算模块Operator Core将运算结果存储在RAM_B的0x00、0x20和0x40地址，CPU通过多路选择器从RAM_B读取结果即可。

为了方便起见，原始操作数a的坐标为(Opr_a_x， Opr_a_y，Opr_a_z)、（x₂,y₂,z₂）表示，中间结果Opr_t1、Opr_t2分别用t1、t2表示，倍点运算过程为：

t₁=z₂ *z₂;z₂=y₂*z₂;z₂=2z₂;t₂=x₂*x₂;t₁=t₁*t₁;

t₁=a*t₁;t₁=t₂+t₁;t₂=2*t₂;t₁=t₂+t₁;y₂=2y₂;

y₂=y₂*y₂;t₂=y₂*y₂;t₂=t₂/2;y₂=y₂*x₂;x₂=t₁*t₁;

x₂=x₂-y₂;x₂=x₂-y₂;y₂=y₂–x₂;y₂=y₂*t₁;y₂=y₂-t₂;

上述各公式均为模运算。

由此可见，对原始操作数和相关参数采用如图4所示的存储形式，既方便了运算过程中数据的调用和存储，有避免了所用数据的覆盖，保证了点加运算的高效性。

如图5所示，给出了本发明的大数运算电路在点乘运算时各RAM的数据存储示意图，设待点乘运算的原始操作数a的坐标为（1Px， 1Py， 1Pz）ECC算法的256位点乘运算通过以下步骤来实现：

a-3).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值1Px, 1Py和1Pz写入到数据存储器RAM_M的0x20、0x40、0x60地址，将原始操作数k写入到数据存储器RAM_M的0xe0地址；将相关参数模值m写入到数据存储器RAM_M的0x00地址，相关参数乘法辅助值R写入到数据存储器RAM_R的0x00地址，倍点运算辅助值a写入到数据存储器RAM_R的0x20地址；

b-3).中间结果的写入，在运算过程中，运算模块Operator Core通过多路选择器进行数据的读取和存储，中间运算操作数a的x、y、z值写入到数据存储器RAM_A的0x00、0x20、0x40地址；中间运算操作数b的x、y、z值写入到数据存储器RAM_B的0x00、0x20、0x40地址；中间运算结果5倍点的x、y、z写入到数据存储器RAM_M的0x80、0xa0、0xc0地址；中间运算结果9倍点的x、y、z写入到数据存储器RAM_R的0x40、0x60、0x80地址；中间运算结果13倍点的x、y、z写入到数据存储器RAM_R的0xa0、0xc0、0xe0地址；中间运算结果Pu点的x、y、z写入到数据存储器RAM_B的0xa0、0xc0、0xe0地址；中间运算过程备份参数a_b写入到数据存储器RAM_A的0xa0地址；中间运算过程非邻接表达式参数高256位kp_h写入到数据存储器RAM_A的0xc0地址，低256位kp_l写入到数据存储器RAM_A的0xe0地址；中间运算结果写入到数据存储器RAM_A、RAM_B的0x60、0x80地址；

c-3).最终结果的写入，运算结束后，运算模块Operator Core将运算结果存储在RAM_Q的0x00、0x20和0x40地址，CPU通过多路选择器从RAM_Q读取结果即可。

Claims

1.一种基于多块RAM的大数运算电路的数据转移方法，多块RAM的大数运算电路包括CPU、运算模块Operator Core以及5块存储器RAM；所述5块存储器RAM的数据和地址线总线经不同的多路选择器与运算模块Operator Core和CPU选择性连通；在大数运算过程中，运算模块Operator Core直接从5块存储器RAM中读取待运算数据、暂存中间数据以及保存运算结果，无需占用存储器RAM与CPU之间的总线，运算结束后，CPU直接从存储器RAM中取出运算结果；

所述运算模块Operator Core、CPU与存储器RAM之间的连接总线包括32位数据线和11位地址线；11位地址线的高3位对5块存储器RAM进行选取，低8位对存储器RAM中的8bit存储单元进行寻址；

其特征在于：大数运算电路的数据转移方法为：5块存储器RAM分别为RAM_A、RAM_B、RAM_M、RAM_R和RAM_Q，设待点加运算的原始操作数a和b的坐标分别为(Opr_a_x， Opr_a_y，Opr_a_z)、(Opr_b_x， Opr_b_y， Opr_b_z)；

ECC算法的256位点加运算通过以下步骤来实现：

a-1).原始操作数和相关参数的写入，CPU将原始操作数a的坐标值Opr_a_x， Opr_a_y，Opr_a_z分别写入至RAM_A的0x00、0x20和0x40地址，将b的坐标值Opr_b_x， Opr_b_y， Opr_b_z分别写入至RAM_B的0x00、0x20和0x40地址，并在RAM_A的0x60地址存储Opr_b_z，在RAM_B的0x60地址存储Opr_a_z；CPU将相关参数模值m存储至RAM_M的0x00地址，将相关参数乘法辅助值R写入到存储器RAM_R的0x00地址；以方便运算模块Operator Core进行取值；

2.根据权利要求1所述的多块RAM的大数运算电路的数据转移方法，其特征在于，设待倍点运算的点a的坐标为(Opr_a_x， Opr_a_y，Opr_a_z)，ECC算法的256位倍点运算通过以下步骤来实现：

3.根据权利要求1所述的多块RAM的大数运算电路的数据转移方法，其特征在于，设待点乘运算的原始操作数a的坐标为（1Px， 1Py， 1Pz）ECC算法的256位点乘运算通过以下步骤来实现：