CN104184578B

CN104184578B - 一种基于fpga的椭圆曲线标量乘法加速电路及其算法

Info

Publication number: CN104184578B
Application number: CN201410370767.3A
Authority: CN
Inventors: 蔡晓军; 刘帅; 鞠雷; 贾智平
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2017-07-07
Anticipated expiration: 2034-07-30
Also published as: CN104184578A

Abstract

本发明公开了一种基于FPGA的椭圆曲线标量乘法加速电路及其算法，电路包括输入模块、仿射坐标转化为投影坐标模块、主循环乘法模块、投影坐标转化为仿射坐标模块、输出模块和时钟控制模块；输入参数经输入模块将数据传递给仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块；仿射坐标转化为投影坐标模块将数据传递给主循环乘法模块；主循环乘法模块将数据传递给投影坐标转化为仿射坐标模块；投影坐标转化为仿射坐标模块将数据传递给输出模块；时钟控制模块用于控制仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块的时钟信号。本发明得到一种有限域上的运算设计更优的执行电路。

Description

一种基于FPGA的椭圆曲线标量乘法加速电路及其算法

技术领域

本发明属于加密算法的硬件加速领域，尤其涉及一种基于FPGA的椭圆曲线标量乘法加速电路及其算法。

背景技术

椭圆曲线密码体制(ECC)理论由Neal Koblitz和Victor Miller于1985年分别独立提出，它是公钥密码体制的一种。公钥密码体制的思想由Diffie和Hellman于1976年提出，与传统的私钥密码体制采用替代和置换的方式不同，它基于数学问题的难解性，要求密钥成对出现，一个是加密密钥，另一个是解密密钥。公钥密码体制有效解决了传统密码体制所面临的密钥分发、密钥管理和无法提供不可否认性的难题，公钥密码体制的运算量较大，在实际应用中常与私钥密码体制结合使用。RSA是一种流行的公钥密码算法，提出于1977年，RSA的安全性基于大整数分解的难题，能够应用于保密通信、密钥管理和数字签名等方面。

ECC依赖于椭圆曲线离散对数问题(ECDLP)的难解性，它的一个主要优势是在相同密钥长度的情况下，与其他公钥密码体制(例如RSA)相比，ECC具有更高的安全性。这使得在应用ECC时能够获得更快的处理速度并降低对带宽和存储空间的要求。

ECC中最主要的运算是椭圆曲线标量乘法运算，它是指给定一个整数k和椭圆曲线上的一个点P，求曲线上另一点Q＝kP的过程。该过程通常由点加和倍点组成，点加和倍点又基于有限域上的算术运算。

ECC的实现方式可分为软件和硬件，软件方式可以在通用处理器借助高级编程语言较容易地实现，但其低下的执行效率在很多情况下无法满足应用对性能的要求。与软件方式相比，硬件实现方式具有较高的执行效率，其又可分为基于专用集电路(ASIC)和现场可编程门阵列(FPGA)两种实现方式，与ASIC相比，FPGA的灵活性使得它可以方便的更新硬件设备上的加密算法，因此成为本发明所采用的平台。

FPGA中的门电路可以同时翻转，使得它具有很高的并行性。现有的很多基于FPGA的ECC电路设计没有结合加密算法充分利用FPGA的高度并行性导致效率低下，或者硬件资源消耗严重，无法应用于硬件资源有限的设备上。

发明内容

为了解决上述技术问题，本发明提出了一种基于FPGA的椭圆曲线标量乘法加速电路设计，用以完成二进制域上的椭圆曲线标量乘法运算。该设计结合硬件电路的特性对算法进行改进，具有运算速度快、电路面积小的优势。

为了取得上述技术效果，本发明采用以下技术方案：

一种基于FPGA的椭圆曲线标量乘法加速电路，包括输入模块、仿射坐标转化为投影坐标模块、主循环乘法模块、投影坐标转化为仿射坐标模块、输出模块和时钟控制模块；输入参数经输入模块将数据传递给仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块；仿射坐标转化为投影坐标模块将数据传递给主循环乘法模块；主循环乘法模块将数据传递给投影坐标转化为仿射坐标模块，所述主循环乘法模块在运行乘法运算的同时并行执行其他运算操作，从而提高效率；投影坐标转化为仿射坐标模块将数据传递给输出模块；时钟控制模块用于控制仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块的时钟信号。

所述基于FPGA的椭圆曲线标量乘法加速电路的具体电路包括5个异或运算单元、2个平方运算单元、2个四次方运算单元、乘法运算模块、有限域上的约减运算单元和9个多路数据选择器；第一异或运算单元和第二异或运算单元均通过第一多路数据选择器将数据传输给第四多路数据选择器和第六多路数据选择器；第三异或运算单元与第四异或运算单元均通过第二多路选择器将数据传输给第四多路数据选择器和第六多路选择器；第五异或运算单元通过第三多路选择器将数据传输给第一平方运算单元；第一平方运算单元将数据传输给第五多路选择器、第四多路数据选择器、第二平方运算单元和第九多路数据选择器；第九多路数据选择器将数据传输给第六多路数据选择器；第四多路数据选择器的输出数据通过第一四次方运算单元将数据传输给第二异或运算单元、第四异或运算单元和第八多路数据选择器；第二四次方运算单元将数据输出给第七多路数据选择器；第七多路数据选择器将数据传递给第二四次方运算单元和第八多路数据选择器；第八多路数据选择器将数据传递给第五多路数据选择器；第二平方运算模块将数据传输给第六多路数据选择器；第六多路数据选择器与第五多路数据选择器将数据传输给乘法运算模块；乘法运算模块的输出数据经有限域上的约减运算单元将数据分别传递给5个异或运算单元、第一至第五多路数据选择器、第七多路数据选择器和第九多路数据选择器。

所述第一异或运算单元的输入端还连接X₁；所述第二异或运算单元的输入端还连接X₂；所述第六多路数据选择器的输入端还连接x_p与b；其中X₁、X₂分别表示投影系下两个点(X₁，Z₁)，(X₂，Z₂)的坐标，x_p为点P仿射坐标下的x_p，b为椭圆方程常数项。

一种基于FPGA的椭圆曲线标量乘法加速电路的算法，包括如下步骤：

1)仿射坐标转化为投影坐标，即进行初始化；

2)算法的主循环：算法的主循环部分包含m次循环，m为二进制表示的k的长度，k为整数，每次循环处理k中的一位，每一次循环包含有限域上的6次乘法、2次平方、2次四次方和3次加法运算；

3)将投影坐标转化为仿射坐标。

所述步骤1)中的初始化具体操作为投影系上的两个点的坐标分别设置为(X₁，Z₁)＝(1，0)，(X₂，Z₂)＝(x_p，1)；x_p为点P仿射坐标(x_p，y_p)下的x_p。

所述步骤2)中乘法运算与其他运算并行运行；每次乘法运算之后要进行约减，两个连续的乘法运算，后一个不能依赖于前一个输出结果。

所述步骤2)中当k_i＝0时，下一个周期从X₂Z₁开始；k_i＝1时，下一个周期从X₁Z₂开始；其中，k_i为整数k二进制表示的第i位的数值，i≤m，X₁、Z₁、X₂、Z₂为投影系下两个点(X₁，Z₁)，(X₂，Z₂)的坐标。

所述步骤2)中的乘法运算为Kartsuba-Ofman算法，将每一个乘法操作数分解两次，一个m位的乘法操作数被分解为4个长度均为的部分。

所述步骤3)中的将投影坐标转化为仿射坐标采用Itoh-Tsujii求逆运算，求逆运算由有限域上的乘法和加法组成。

附图说明

图1为本发明的系统框架图。

图2为基于Montgomery方法所改进的算法。

图3为当k_i＝0时，有限域上的乘法运算与其他运算并行执行的流程图。

图4为乘法器在整个主循环中无空闲周期，并以k_i＝0为例的流程图。

图5为Karatsuba-Ofman乘法示意图。

图6为二进制多项式平方示意图。

其中，101、第一异或运算单元；102、第二异或运算单元；103、第三异或运算单元；104、第四异或运算单元；105、第五异或运算单元；201、第一平方运算单元；202、第二平方运算单元；301、第一多路数据选择器；302、第二多路数据选择器；303、第三多路数据选择器；304、第四多路数据选择器；305、第五多路数据选择器；306、第六多路数据选择器；307、第七多路数据选择器；308、第八多路数据选择器；309、第九多路数据选择器；401、第一四次方运算单元；402、第二四次方运算单元。

具体实施方式

下面结合附图对本发明作进一步说明。

椭圆曲线密码的实现基于有限域上的算术运算。有限域或者称伽罗瓦域是指由有限个元素所组成的域。最常使用的有限域是二进制域GF(2^m)和素数域GF(p)，这两种有限域所提供的安全等级是相同的，但是二进制域上的算术运算在硬件平台上具有更高的执行效率，所以本发明采用二进制域。构建二进制域GF(2^m)的一种方式是采用多项式基表示域中的元素，在这种表示方法下，每一个元素被表示为a_m-1x^m-1+…+a₂x²+a₁x+a₀，a_i∈{0,1}的形式。

GF(2^m)上的椭圆曲线由如下的Weierstrass方程定义：

y²+xy＝x³+ax²+b，

其中a、b是GF(2^m)中的元素，b为常数项，且b≠0。椭圆曲线上的点可以用仿射坐标或投影坐标来表示。用仿射坐标表示时，椭圆曲线上的点P由GF(2^m)上的2个元素(x,y)组成，用投影坐标表示时，椭圆曲线上的点由GF(2^m)上的3个元素(X,Y,Z)表示。在仿射坐标系下，主循环中的每一次循环都需要求逆运算，这会造成极大的计算开销，使用投影坐标则可以有效避免主循环中的求逆运算。因此本发明使用仿射坐标作为系统的输入输出，使用投影坐标进行椭圆曲线标量乘法的运算。

图1是本发明的系统框架图。一种基于FPGA的椭圆曲线标量乘法加速电路，包括输入模块、仿射坐标转化为投影坐标模块、主循环乘法模块、投影坐标转化为仿射坐标模块、输出模块和时钟控制模块；输入参数经输入模块将数据传递给仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块；仿射坐标转化为投影坐标模块将数据传递给主循环乘法模块；主循环乘法模块将数据传递给投影坐标转化为仿射坐标模块；投影坐标转化为仿射坐标模块将数据传递给输出模块；时钟控制模块用于控制仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块的时钟信号。

本发明采用基于Montgomery方法所改进的算法，共包括三个阶段：仿射坐标转化为投影坐标(初始化)、主循环以及投影坐标转化为仿射坐标。

Montgomery方法的优势是仅有X坐标(仿射坐标系下)或者X和Z坐标(投影坐标系下)参与运算，本发明使用标准投影坐标，仿射坐标系下的x对应于投影坐标系下的X/Z。经过初始化阶段之后，投影坐标所表示的点(X,Y,Z)中的X和Z参与剩余阶段的运算。算法的主循环部分包含m次循环，m即为二进制表示的k的长度,每次循环处理k中的一位。每一次循环包含有限域上的6次乘法、2次平方、2次四次方和3次加法操作。完成一次乘法运算所消耗的时间多于其他运算，这使得其他运算可以并行与乘法运算进行，并且使主循环部分的关键路径完全依赖于乘法运算。

首先将整数k的值转换为二进制并对其进行赋值；同时对投影坐标系下的两点Q(X₁，Z₁),P(X₂，Z₂)进行初始化。

其次进行主循环，算法的主循环部分包含m次循环，m即为二进制表示的k的长度,每次循环处理k中的一位。每一次循环包含有限域上的6次乘法、2次平方、2次四次方和3次加法操作。而一次循环需要的具体乘法如下：

其中，T₁、T₂和T₃为相应参数的乘积，T_x和T_z为相应参数四次方运算结果。

最后，投影坐标转化为仿射坐标，为两个二次多项式求商的过程。其程序具体操作为：

由此可知，算法的最后阶段，Z₁，Z₂和x_P的逆需要计算，由于x_P的值在算法一开始就是确定的，因此可在主循环阶段提前求得x_P的逆。常用的求逆算法有二进制算法、扩展的Euclidean算法和Itoh-Tsujii算法。本发明采用的是Itoh-Tsujii求逆算法。该算法基于费马小定理，由m-1个限域上的平方和个有限域上的乘法运算组成，其中H(m-1)表示m-1的二进制表示中1的个数。Itoh-Tsujii求逆算法可通过复用乘法和平方模块的方式来实现，仅需较少的额外资源便可获得较高的执行速度。

图2表示的是在主循环中当k_i＝0时，有限域上的乘法运算与其他运算并行执行的流程图。图中MUL表示乘法运算，QUAD为四次方运算单元，ADD SQU为平方运算与加法运算单元，ADD为加法运算，三角形表示简约运算。在乘法运算之后要进行约减，假设乘法运算所需的周期是M，约减所需的周期是r(M>r)。在流程图中以矩形表示有限域乘法的开始，以带有“*”的三角形表示约减的结束，从一个灰色矩形到与之对应的三角形间的距离是M+r。有限域乘法在开始后，只有经过M+r个周期后才能使用其结果。本发明设计了乘法运算模块和约减运算模块，为使乘法运算模块能够持续不停地工作，算法中两个连续的乘法运算，后一个不能依赖于前一个的输出结果，约减运算和其他运算共同并行与乘法运算执行。采用这种方案，一次循环所需要的周期为6M+r+N，N表示最后一个加法运算所需的周期。

在图2所示流程图的最底部，加法操作需要等待乘法操作的运算结果，而加法操作的输出作为下一轮迭代开始时来计算T₁的输入。这造成了r+N的延迟，这个延迟可以通过以下方法消除。T₁和T₂是对称的，他们的计算顺序也可以交换，每个周期的第一个乘法操作可以是X₁·Z₂或者X₂·Z₁。当k_i＝0时，Z₁,Z₂和X₂比X₁提前可用，这表示下一个周期从X₂·Z₁开始并在X₁的结果得到前进行。

图3表示的是在主循环中k_i＝0且下一个周期中X₂·Z₁的计算顺序被提前的流程图。当k_i＝1时，下一个周期乘法运算则从X₁·Z₂开始。使用这种方案，下一周期可在当前周期尚未结束前便开始执行，乘法器在整个主循环中一直运作，一次循环所需要的周期为6M。

在二进制域中，次数不超过m-1的二进制多项式相乘或者平方，得到的结果是次数最多为2m-2的二进制多项式，需要使用不可约多项式对运算结果进行约减使其次数不超过m-1以保持二进制域的封闭性。约减操作的时间开销是不可忽视的，不同的不可约多项式会造成的不同的算术运算和计算量。常用的不可约多项式有任意约减多项式、三项式和五项式。三项式和五项式指的是包含三个或五个非零系数的多项式，与任意约减多项式相比，他们能够大幅度减少约减运算的复杂性。

有限域乘法运算由于其计算复杂性和较高的出现频率，成为了ECC中最重要的有限域上的运算。本发明采用了由Karatsuba和Ofman所提出的分而治之的方法以减少计算复杂性。该算法将比较大的乘法操作数分成长度相等的两部分，以此将一个复杂的乘法运算分解成多个简单的乘法运算。如果分解后得到的乘法操作数依旧很大，可以对操作数进行再次分解，但每一次分解都会造成额外的加法操作，因此对乘法操作数不能进行过度分解。

图4是Karatsuba-Ofman方法的示意图。对于乘法运算C(x)＝A(x)B(x)，C(x)为乘积，乘法操作数A、B分别分解为A₁、A₀以及B₁、B₀，原始的乘法运算由操作数长度较短的乘法和额外的加法运算组成。本发明使用Karatsuba-Ofman方法将每一个乘法操作数分解两次，一个m位的乘法操作数被分解为4个长度均为的部分,原始的乘法运算被分解为多个操作数长度为的乘法以及额外的加法的运算。对于操作数长度为的乘法运算，可以写成如下矩阵的形式：

乘法运算所得结果C(x)中的每一个系数可以表述为以下形式

其中，n为自然数，i为自然数。

本发明中，乘法运算在1个周期内完成，对应的约减运算在下一个周期执行。结合图3所示的示意图，主循环过程中的一次循环需要6个周期，乘法运算模块在主循环过程中无空闲周期，约减运算和其他运算共同并行于乘法运算执行。主循环部分还需要一个额外周期用于执行与最后一次乘法相对应的约减以及加法运算。

图5是二进制多项式的平方示意图。对于A(x)＝a_m-1x^m-1+…+a₂x²+a₁x+a₀，平方后的结果为A²(x)＝a_m-1x^2m-2+…+a₂x⁴+a₁x²+a₀。对A(x)进行平方即往A(x)的二进制表示中相邻位之间插入0。本发明所设计的平方模块将平方和约减结合在一起，对于次数不超过m-1的二进制多项式输入，所得结果同样为次数不超过m-1的二进制多项式。

本发明还设计了四次方运算模块，它将两次连续的平方和约减结合在一起，用以替代两个连续的平方运算。四次方运算模块能够有效减少主循环部分的计算量，并且加速由有限域乘法和加法所组成的Itoh-Tsujii求逆运算。

有限域加法在二进制域上的运算是模二加法，也就是按位异或的运算。有限域加法由于无需进位，其执行是十分高效的，执行时间也大幅低于其他的有限域上的运算。

图6是用于执行算法的运算器示意图，它包括5个异或运算单元、2个平方运算单元、2个四次方运算单元、乘法运算模块、有限域上的约减运算单元和9个多路数据选择器；第一异或运算单元101和第二异或运算单元102均通过第一多路数据选择器301将数据传输给第四多路数据选择器304和第六多路数据选择器306；第三异或运算单元103与第四异或运算单元104均通过第二多路选择器302将数据传输给第四多路数据选择器304和第六多路选择器306；第五异或运算单元105通过第三多路选择器303将数据传输给第一平方运算单元201；第一平方运算单元201将数据传输给第五多路选择器305、第四多路数据选择器304、第二平方运算单元202和第九多路数据选择器309；第九多路数据选择器309将数据传输给第六多路数据选择器306；第四多路数据选择器304的输出数据通过第一四次方运算单元401将数据传输给第二异或运算单元102、第四异或运算单元104和第八多路数据选择器308；第二四次方运算单元402将数据输出给第七多路数据选择器307；第七多路数据选择器307将数据传递给第二四次方运算单元402和第八多路数据选择器308；第八多路数据选择器308将数据传递给第五多路数据选择器305；第二平方运算单元202将数据传输给第六多路数据选择器306；第六多路数据选择器306与第五多路数据选择器305将数据传输给乘法运算模块作乘法运算；乘法运算模块的输出数据经有限域上的约减运算单元将数据分别传递给4个异或运算单元(101、102、103、104和105)、第一至第五多路数据选择器(301、302、303、304和305)、第七多路数据选择器307和第九多路数据选择器309。

两个二进制多项式的商可以通过除法或者求逆运算得到，与其他运算相比，有限域上的除法/求逆是计算开销最大的。常用的求逆算法有二进制算法、扩展的Euclidean算法和Itoh-Tsujii算法。本发明采用的是Itoh-Tsujii求逆算法。该算法基于费马小定理，由m-1个限域上的平方和个有限域上的乘法运算组成，其中H(m-1)表示m-1的二进制表示中1的个数。Itoh-Tsujii求逆算法可通过复用乘法和平方模块的方式来实现，仅需较少的额外资源便可获得较高的执行速度。在本发明中，为使对Z₁和Z₂的求逆运算能够并行执行，共使用了2个平方模块和2个四次方模块，对于乘法模块则是交替使用。主循环阶段对x_P的求逆运算采用二进制算法，该算法运算周期长、消耗资源少，有效减少了对硬件资源的消耗以及坐标转换阶段所需的周期数。

综上所述，本发明提供了一种基于FPGA的椭圆曲线标量乘法电路设计。该电路进行二进制域上的椭圆曲线标量乘法运算，完成了ECC中最主要的运算。本发明结合FPGA的特性选择合适的算法并加以改进，改进后的算法具有高度的并行性，有效减少了关键路径的长度。针对算法中所应用的每一种有限域上的运算，本发明优化设计每一个运算模块。通过改进算法的逻辑时序、复用模块等方式,所设计的电路具有运算速度快、消耗资源少的特点。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于FPGA的椭圆曲线标量乘法加速电路，其特征是，包括输入模块、仿射坐标转化为投影坐标模块、主循环乘法模块、投影坐标转化为仿射坐标模块、输出模块和时钟控制模块；输入参数经输入模块将数据传递给仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块；仿射坐标转化为投影坐标模块将数据传递给主循环乘法模块；主循环乘法模块将数据传递给投影坐标转化为仿射坐标模块，所述主循环乘法模块在运行乘法运算的同时并行执行其他运算操作，从而提高效率；投影坐标转化为仿射坐标模块将数据传递给输出模块；时钟控制模块用于控制仿射坐标转化为投影坐标模块、主循环乘法模块和投影坐标转化为仿射坐标模块的时钟信号；

2.如权利要求1所述的一种基于FPGA的椭圆曲线标量乘法加速电路，其特征是，所述第一异或运算单元的输入端还连接X1；所述第二异或运算单元的输入端还连接X2；所述第六多路数据选择器的输入端还连接xp与b；其中X1、X2 分别表示投影系下两个点(X1，Z1)，(X2，Z2)的坐标，xp为点P仿射坐标下的xp，b为椭圆方程常数项。

3.如权利要求1所述的一种基于FPGA的椭圆曲线标量乘法加速电路的算法，其特征是，包括如下步骤：

1)仿射坐标转化为投影坐标，即进行初始化；

3)将投影坐标转化为仿射坐标。

4.如权利要求3所述的一种基于FPGA的椭圆曲线标量乘法加速电路的算法，其特征是，所述步骤1)中的初始化具体操作为投影系上的两个点的坐标分别设置为(X1，Z1)＝(1，0)，(X2，Z2)＝(xp，1)；xp为点P仿射坐标(xp，yp)下的xp。

5.如权利要求4所述的一种基于FPGA的椭圆曲线标量乘法加速电路的算法，其特征是，所述步骤2)中乘法运算与其他运算并行运行；每次乘法运算之后要进行约减，两个连续的乘法运算，后一个不能依赖于前一个输出结果。

6.如权利要求3-5任一所述的一种基于FPGA的椭圆曲线标量乘法加速电路的算法，其特征是，所述步骤2)中当ki＝0时，下一个周期从X2Z1开始；ki＝1时，下一个周期从X1Z2开始；其中，ki为整数k二进制表示的第i位的数值，i≤m，X1、Z1、X2、Z2为投影系下两个点(X1，Z1)，(X2，Z2)的坐标。

7.如权利要求6所述的一种基于FPGA的椭圆曲线标量乘法加速电路的算法，其特征是，所述步骤2)中的乘法运算为Kartsuba-Ofman算法，将每一个乘法操作数分解两次，一个m位的乘法操作数被分解为4个长度均为的部分。

8.如权利要求7所述的一种基于FPGA的椭圆曲线标量乘法加速电路的算法，其特征是，所述步骤3)中的将投影坐标转化为仿射坐标采用Itoh-Tsujii求逆运算，求逆运算由有限域上的乘法和加法组成。