CN113253972A

CN113253972A - 一种lac中稀疏多项式乘法加速器的fpga实现方法

Info

Publication number: CN113253972A
Application number: CN202110520678.2A
Authority: CN
Inventors: 刘哲; 张吉鹏
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-13

Abstract

本发明公开了一种LAC中稀疏多项式乘法加速器的FPGA实现方法，自底向上包括4个层次：并行设计层、模约简层、流水线设计层以及可伸缩架构设计层，并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构；模约简层基于格基密码LAC方案模数251的数学特征，设计了新的硬件友好型模约简算法；流水线设计层对流水线进行更细致的划分以提高加速器运行频率；可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计，p越大所使用的硬件资源越多、并行度越高，同理p越小所使用的硬件资源越少、并行度越低。本发明的一种LAC中稀疏多项式乘法加速器的FPGA实现方法并行度更高、工作频率更高、不同场景中的适用性更强。

Description

一种LAC中稀疏多项式乘法加速器的FPGA实现方法

技术领域

本发明涉及一种格基密码(LAC)方案中的稀疏多项式乘法加速器的FPGA实现，属于计算机领域中的网络空间安全领域。

背景技术

后量子密码是一种既能抵抗经典计算机攻击又能抵抗量子计算机攻击的密码。目前，后量子密码分为基于格的密码、基于编码的密码和基于多变量的密码。在各种后量子密码中，基于格的密码以其抗量子性、通用性和高效性是最有希望取代传统公钥密码的一类密码。LAC是国人自主设计的一种后量子密码方案，其基于“环上容错学习问题”构建，且入围了NIST后量子密码标准的第二轮评估，得益于其较小的模数，LAC方案具有不错的性能。

在LAC方案中，计算量最大的程序是多项式乘法。LAC中的秘密多项式的系数服从中心二项分布，且其取值范围为{-1,0,1}。值得注意的是，在LAC中，半数以上的秘密多项式系数的值为0。因此，当与该多项式相乘时，如果系数为0，则此次运算可以被忽略，这就是稀疏多项式乘法(SPM)的核心思想。SPM的复杂度取决于非零系数的数量，SPM可以使LAC中的乘法指令数量减半。除此之外，LAC中的秘密多项式非零系数为-1或1，一个数乘以1得到它自己，一个数乘以-1得到它的相反数。因此，可以用简单的加法和减法指令实现LAC中的多项式乘法，从而消除了昂贵的乘法指令。

FPGA即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编辑器件门电路数有限的缺点。FPGA在密码工程领域被广泛用于设计密码加速器。本发明专利旨在利用FPGA的高并行性，针对国人自主设计的LAC方案，设计一种LAC中稀疏多项式乘法加速器的FPGA实现架构，使得LAC方案的稀疏多项式乘法可以在FPGA平台上得到性能优化，进而为我国后量子密码算法LAC和其它格密码算法体制的多项式乘法提供高效且可伸缩的实现。

发明内容

发明目的：本发明为了解决LAC方案运行效率低的问题，提出一种LAC中稀疏多项式乘法加速器的FPGA实现方法，稀疏多项式乘法为LAC方案中最耗时的模块，本发明在FPGA平台上设计稀疏多项式乘法加速器，可大幅度提升LAC方案的运行效率。

技术方案：一种LAC中稀疏多项式乘法加速器的FPGA实现方法，自底向上包括4个层次：并行设计层、模约简层、流水线设计层以及可伸缩架构设计层，并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构；模约简层基于格基密码LAC方案模数251的数学特征，设计了新的硬件友好型模约简算法；流水线设计层对流水线进行更细致的划分，将复杂的运算拆分成多个简单的运算，提高了加速器的运行频率；可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计，p越大所使用的硬件资源越多、并行度越高，同理p越小所使用的硬件资源越少、并行度越低。

进一步地，在并行设计层，采用内外层循环双并行的技术，利用FPGA中分布式内存(DistributedRAM)和块内存(BlockRAM)具有不同带宽的特点，FPGA中分布式内存作为外层，宽度可灵活调整，每次能从分布式内存中得到若干个多项式系数，即位置(position)系数，位置系数的个数与参数p相同，实现了外层循环的p路并行；块内存作为内层，宽度只能是8比特或16比特，每次能从块内存中得到2个8比特的多项式系数，实现了内层循环的2路并行。

进一步地，在模约简层，在模251体系下，2⁸与2⁸-251等价，2⁸＝2⁸-251＝256-251＝5＝2²+1(mod251)，设计了新的硬件友好型模约简算法；在LAC的多项式乘法运算中，每2个多项式系数相加后都进行模约简是可行的，但是效率较低，因此4个、8个、16个或更多个多项式系数相加后再进行约简，可以有效减少模约简的次数，并提高运行效率，以4个多项式系数相加即4个8比特数据相加为例，其结果需要使用10比特来容纳，记为c[9：0]，利用上述数学特征进行化简：c[9：0]＝2⁸c[9：8]+c[7：0]＝(2²+1)c[9：8]+c[7：0](mod251)，上述结果的前半部分(2²+1)c[9：8]可使用8比特数据来容纳，后半部分c[7：0]也可使用8比特数据来容纳，两者相加只需使用9比特来容纳，最后判断如果该结果大于等于q，则减去q；FPGA平台上的乘法运算需要使用额外的数字信号处理(DSP)单元来实现，DSP单元的引入会增加整体设计的资源消耗，而本专利提出的模约简算法无需使用乘法指令，可以更加高效的完成模约简运算。

进一步地，在流水线设计层，对流水线设计进行划分，流水线划分的越细致，加速器的工作频率也会越高，以两个多项式系数即两个8比特的值相加并约简为例，该过程可以在一个周期内完成，但会产生较长的关键路径，但会使设计较为复杂；对其进行更细粒度的划分，在第一个周期计算加法，并将加法结果进行缓存，第二个周期对加法结果做约简，从而简化了设计，提高了加速器工作频率；

进一步地，可伸缩的加速器架构设计，即灵活地利用参数p来调整该加速器的并行度，参数p的可选值为2,4,8,16，参数p越大，加速器的并行度越大，性能越好，同时消耗的计算资源越多，适合于高性能计算场景；反之，参数p越小，加速器所使用的硬件资源越少，同时性能较差，适合于资源受限场景，根据不同应用场景下的需求调整参数p，可将该加速器部署到各种应用场景中。

有益效果：本发明的一种LAC中稀疏多项式乘法加速器的FPGA实现方法，并行度更高、工作频率更高、不同场景中的适用性更强，具体地，内外层循环双并行技术以少量的资源消耗换取了2倍的并行度提升，使得LAC的稀疏多项式乘法的计算时间减半；新的硬件友好型模约简算法以及流水线设计的更细致划分提高了加速器的工作频率；通过调整参数p，可调整加速器的并行度，并为加速器带来了可伸缩的特性，可以使该加速器应用到各种场景中，以满足不同场景对性能与资源占用的不同需求。

附图说明

图1是稀疏多项式乘法加速器硬件架构；

图2(a)是ram_pos内存布局图，图2(b)是ram_res的内存布局图；

图3是ram_poly的内存布局图；

图4是新的硬件友好型模约简架构图。

具体实施方式

下面结合附图对本发明的稀疏多项式乘法加速器的工作流程做进一步详细说明。

一种LAC中稀疏多项式乘法加速器的FPGA实现方法，自底向上包括4个层次：并行设计层、模约简层、流水线设计层以及可伸缩架构设计层，并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构；模约简层基于格基密码LAC方案模数251的数学特征，设计了新的硬件友好型模约简算法；流水线设计层对流水线进行更细致的划分，将复杂的运算拆分成多个简单的运算，提高了加速器的运行频率；可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计，p越大所使用的硬件资源越多、并行度越高，同理p越小所使用的硬件资源越少、并行度越低。

在并行设计层，采用内外层循环双并行的技术，利用FPGA中分布式内存和块内存具有不同带宽的特点，FPGA中分布式内存作为外层，宽度可灵活调整，每次能从分布式内存中得到若干个位置(position)系数，位置系数的个数与参数p相同，实现了外层循环的p路并行；块内存作为内层，宽度只能是8比特或16比特，每次能从块内存中得到2个多项式系数，实现了内层循环的2路并行。

在模约简层，在模251体系下，2⁸与2⁸-251等价，2⁸＝2⁸-251＝256-251＝5＝2²+1(mod251)，设计了新的硬件友好型模约简算法；在LAC的多项式乘法运算中，采用多个多项式系数相加后再进行约简以减少模约简的次数，并提高运行效率，以4个多项式系数相加即4个8比特数据相加为例，其结果需要使用10比特来容纳，记为c[9：0]，利用上述数学特征进行化简：c[9：0]＝2⁸c[9：8]+c[7：0]＝(2²+1)c[9：8]+c[7：0](mod251)，上述结果的前半部分(2²+1)c[9：8]可使用8比特数据来容纳，后半部分c[7：0]也可使用8比特数据来容纳，两者相加只需使用9比特来容纳，最后判断如果该结果大于等于q，则减去q；模约简算法无需使用乘法指令，可以更加高效的完成模约简运算。

在流水线设计层，对流水线设计进行划分，以两个多项式系数即两个8比特的值相加并约简为例，在第一个周期计算加法，并将加法结果进行缓存，第二个周期对加法结果做约简，从而简化了设计，提高了加速器工作频率；

可伸缩的加速器架构设计层，即灵活地利用参数p来调整该加速器的并行度，参数p的可选值为2,4,8,16，参数p越大，加速器的并行度越大，性能越好；反之，参数p越小，加速器所使用的硬件资源越少，根据不同应用场景下的需求调整参数p，可将该加速器部署到各种应用场景中

Algorithm 4为LAC中的稀疏多项式乘法(spare polynomial multiplication缩写为spm)，该算法的输入包含一个密集多项式(dense polynomial)

一个稀疏多项式(sparse polynomial)

其系数的值为-1,0,1，还包含一个位置多项式(positionpolynomial)

其前h/2个系数用来表示稀疏多项式中值为1的系数索引，后h/2个系数用来表示稀疏多项式中值为-1的系数索引，h表示稀疏多项式中不为0的系数个数。上述多项式均包含n个系数，在LAC中n取512或1024。该算法的输出为上述密集多项式

和稀疏多项式

相乘的结果。算法的第1行对结果多项式

进行初始化，将其所有系数置为0。算法的第2行控制外层循环，循环次数为h，i为外层循环控制变量。算法的第3行从位置多项式中取第i个系数保存至pos中。算法的第4行控制内层循环，循环次数为n，j为内层循环控制变量。算法的第5行用于判断pos所指示的稀疏多项式系数是否为1，判断条件成立意味着系数为1，算法的第6行计算加法；算法的第7行表示判断条件不成立，即系数为-1，算法的第8行计算减法。算法的第9、10、11行分别表示判断语句结束、内存循环结束、外层循环结束。算法的第12行返回结果多项式

加速器的工作流程如下：

步骤1)加速器开始工作，图1中的控制器单元计算ram_pos的读地址，并向ram_pos发出读请求。

步骤2)ram_pos的输出被送到地址计算单元，如图2(a)所示，ram_pos的输出包含p个位置系数，地址计算单元利用p个位置系数计算ram_poly的读地址，如图2(b)所示，ram_res的输出包含2个结果系数，以这种每次输出两个结果系数的方式，可以充分利用块内存的带宽优势。

步骤3)地址计算单元的输出包含p个ram_poly的读地址，然后并行发出p个对ram_poly的读请求，如图3所示，共有p/2个ram_poly，每个均有两个端口，因此可并行处理p个读请求。

步骤4)ram_poly的结果被送到累加和约简单元，其对ram_poly的p个输出进行累加和约简，约简算法架构如图4所示，最后将约简后的结果发送至ram_res。

步骤5)控制器单元更新ram_poly的读地址，然后返回到步骤3)，步骤3)到步骤5)相当于算法的内层循环，该循环一直重复直到ram_res的所有内存内容都被更新。

步骤6)内循环执行完毕后，控制器单元更新ram_pos的读地址，然后返回到步骤1)，步骤1)到步骤6)相当于算法的外循环。

图4展示了本专利提出的新的硬件友好型模约简算法架构图，其中的addition,subtraction,comparison和multiplexer分别表示加法，减法，比较和选择操作。以16个8比特多项式系数相加为例，16个8比特系数相加得到了12bit结果，记为c[11∶0]。如图4所示，c[11：0]被拆分成了两部分，分别是低8位c[7：0]和高4位c[11：8]，表示为c[11：0]＝2⁸c[11：8]+c[7：0]，由2⁸＝2⁸-251＝256-251＝5＝2²+1可得c[11：0]＝(2²+1)c[11：8]+c[7：0]＝2²c[11：8]+c[11：8]+c[7：0]＝{c[11：8],0,0}+c[11：8]+c[7：0]，其中{c[11:8],0,0}表示在c[11:8]低位插入两个0比特，其与2²c[11:8]等价。上述过程在stage1阶段完成，并得到9比特的输出c′[8:0]。图4中的stage2用于判断c′[8：0]是否大于等于q，如果大于等于q，则将c′[8：0]减q。其中的comparison单元用于比较c′[8:0]和q的关系，multiplexer单元用于选择值，如果c′[8：0]大于等于q则选择减法结果c′[8:0]-q，否则选择原值c′[8:0]。以这样的方式，加法约简运算被拆分为两个简单的步骤执行，该设计更为简单，且具有更高的运行频率。

综上，可得到表1所示的性能分析及资源占用信息，表中的第二行到第五行是本发明得到的结果，后四行是之前相关工作的结果，其中第二列表示参数p的选择，第三列是测试所使用的设备名称，第四列是查找表(LUTs)、寄存器(FFs)和块内存(BRAM18)资源的使用情况，第五列是加速器的运行频率，第六列是执行完整算法的时钟周期数。以第二行和第六行为例，在相同参数、相同设备下，使用本专利得到的结果虽然资源使用略微增加，但是时钟频率从196MHz提升到了263MHz，时钟周期数从66432周期降低到了34048周期，运行效率得到了大幅度提升。

表1本发明稀疏多项式乘法加速器性能及对比

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种LAC中稀疏多项式乘法加速器的FPGA实现方法，其特征在于，自底向上包括4个层次：并行设计层、模约简层、流水线设计层以及可伸缩架构设计层，并行设计层采用内外层循环双并行的技术以实现更高效的并行设计架构；模约简层基于格基密码LAC方案模数251的数学特征，设计了新的硬件友好型模约简算法；流水线设计层对流水线进行更细致的划分，将复杂的运算拆分成多个简单的运算，提高了加速器的运行频率；可伸缩架构设计层采用参数p来控制加速器的并行度以实现可伸缩的加速器架构设计，p越大所使用的硬件资源越多、并行度越高，同理p越小所使用的硬件资源越少、并行度越低。

2.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法，其特征在于，在并行设计层，采用内外层循环双并行的技术，利用FPGA中分布式内存和块内存具有不同带宽的特点，FPGA中分布式内存作为外层，宽度可灵活调整，每次能从分布式内存中得到若干个位置(position)系数，位置系数的个数与参数p相同，实现了外层循环的p路并行；块内存作为内层，宽度只能是8比特或16比特，每次能从块内存中得到2个多项式系数，实现了内层循环的2路并行。

3.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法，其特征在于，在模约简层，在模251体系下，2⁸与2⁸-251等价，2⁸＝2⁸-251＝256-251＝5＝2²+1(mod251)，设计了新的硬件友好型模约简算法；在LAC的多项式乘法运算中，采用多个多项式系数相加后再进行约简以减少模约简的次数，并提高运行效率，以4个多项式系数相加即4个8比特数据相加为例，其结果需要使用10比特来容纳，记为c[9：0]，利用上述数学特征进行化简：c[9：0]＝2⁸c[9：8]+c[7：0]＝(2²+1)c[9：8]+c[7：0](mod251)，上述结果的前半部分(2²+1)c[9：8]可使用8比特数据来容纳，后半部分c[7：0]也可使用8比特数据来容纳，两者相加只需使用9比特来容纳，最后判断如果该结果大于等于q，则减去q；模约简算法无需使用乘法指令，可以更加高效的完成模约简运算。

4.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法，其特征在于，在流水线设计层，对流水线设计进行划分，以两个多项式系数即两个8比特的值相加并约简为例，在第一个周期计算加法，并将加法结果进行缓存，第二个周期对加法结果做约简，从而简化了设计，提高了加速器工作频率。

5.根据权利要求1所述的一种LAC中稀疏多项式乘法加速器的FPGA实现方法，其特征在于，可伸缩的加速器架构设计层，即灵活地利用参数p来调整该加速器的并行度，参数p的可选值为2,4,8,16，参数p越大，加速器的并行度越大，性能越好；反之，参数p越小，加速器所使用的硬件资源越少，根据不同应用场景下的需求调整参数p，可将该加速器部署到各种应用场景中。