CN110086602A

CN110086602A - 基于gpu的sm3密码散列算法的快速实现方法

Info

Publication number: CN110086602A
Application number: CN201910302522.XA
Authority: CN
Inventors: 邱卫东; 闫闵; 付思豪; 唐鹏; 郭捷; 黄征
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-02
Anticipated expiration: 2039-04-16
Also published as: CN110086602B

Abstract

一种基于GPU的SM3密码散列算法的快速实现方法，通过异步方式将待处理消息从内存复制到作为全局存储器的GPU的显存，当GPU通过包含填充扩展和压缩函数循环展开的SM3快速实现方法进行哈希值计算时，CPU同时传输下一批次的消息；GPU将计算结果输出至显存并由CPU读取显存中的结果，传输消息摘要值。本发明实施简单，性能稳定，SM3快速实现性能达到11.4亿Hash/s，极大提高了SM3的计算效率。

Description

基于GPU的SM3密码散列算法的快速实现方法

技术领域

本发明涉及的是一种信息安全领域的技术，具体是一种基于OpenCL和GPU的SM3密码散列算法的快速实现方法。

背景技术

摘要算法被广泛应用在数字签名、消息认证、数据完整性和口令保护等重要领域。其中SM3算法属于运算分支少、算术密集型、高带宽需求型计算任务，使用OpenCL语言，利用GPU通用计算的性能优势能实现SM3快速计算服务。现有多种通过硬件实现SM3散列算法的技术，但其无法实现针对SM3的高效计算方案。

发明内容

本发明针对现有技术在CPU进行消息传输时GPU需要等待CPU提供下一批消息值，而当GPU并行计算当前批消息哈希值时，CPU处于闲置状态。因此GPU的利用率不高的问题，提出一种基于GPU的SM3密码散列算法的快速实现方法，实施简单，性能稳定，SM3快速实现性能达到11.4亿Hash/s，极大提高了SM3的计算效率。

本发明是通过以下技术方案实现的：

本发明涉及一种基于GPU的SM3密码散列算法的快速实现方法，通过异步方式将待处理消息从内存复制到作为全局存储器的GPU的显存，当GPU通过包含填充扩展和压缩函数循环展开的SM3快速实现方法进行哈希值计算时，CPU同时传输下一批次的消息；GPU将计算结果输出至显存并由CPU读取显存中的结果，传输消息摘要值。

所述的当前批SM3哈希值，采用压缩函数循环展开、指令优化、寄存器复用的方法计算得到，具体为：

1)64步压缩函数循环展开：其中1～16步展开为，C0(A,B,C,D,E,F,G,H,w[0～15],w1[0～15],0～15,0x79cc4519)；17～64步展开为C1(A,B,C,D,E,F,G,H,w[16～63],w1[16～63],16～63,0x7a879d8a)。其中C0，C1分别为1～16步和17～64步的压缩函数，A～H为存储摘要值的8个寄存器，w[0]～w[68],w1[0]～w1[64]为消息扩展得到的132个字。

2)指令优化：使用OpenCL内置的bitselect和rotate函数对压缩函数计算中逻辑运算和循环移位运算进行优化；

3)寄存器复用：每轮16步的压缩函数仅和该轮的16个寄存器取值有关。64步消息扩展阶段采用16个字的寄存器空间复用64个字。

本发明涉及一种实现上述方法的系统，包括：用于GPU进行本批次哈希值计算和CPU产生下一批消息操作异步并行化的异步并行模块、用于并行计算当前批SM3哈希值的SM3运算模块和用于从显存中读取当前批消息哈希值的数据读取模块，其中：CPU用于消息摘要值传输和记录，GPU用于并行计算当前批消息哈希值并将结果输出至显存。

所述的SM3运算模块包括：用于将待哈希计算的消息分组进行扩展的消息扩展子单元和用于对扩展后的消息进行压缩处理并得到消息哈希值的消息压缩子单元。

所述的扩展，其宽度为132个字。

所述的数据读取模块，SM3摘要值采用大端模式表示，以32bit无符号数输出并存储于缓存。

技术效果

与现有技术相比，本发明使用消息分批异步传输方法，减少了传输开销：使用GPU-Z工具监控运行过程中的程序，GPU占用率始终在99％以上，即使用异步并行方法可以显著降低GPU空闲时间，提高了GPU占用率；将压缩函数循环展开，并减少分支操作，算法性能得到了提升。本发明使用的寄存器复用技术可将矢量寄存器(VGPRs)占用量都从超过245降至57以下，同时运行的wavefront深度可提高到4，整体算法性能提高超过了1倍。使用逻辑运算指令bitselect和循环移位指令rotate也可令性能提升5％。本发明在AMD R9 290 GPU上性能峰值可达11.4亿次Hash/s，SM3快速实现性能约为FPGA环境下的3.9倍。

附图说明

图1为本发明方法流程图；

图2为本发明SM3的CPU和GPU异步时序图；

图3为实施例SM3快速实现算法单线程流程图。

具体实施方式

如图1所示，本实施例包括用于GPU进行本批次哈希值计算和CPU产生下一批消息操作异步并行化的异步并行模块、用于并行计算当前批SM3哈希值的SM3运算模块和用于从显存中读取当前批消息哈希值的数据读取模块，其中：CPU用于消息摘要值传输和记录，GPU用于并行计算当前批消息哈希值并将结果输出至显存。

如图3所示，上述系统通过以下方式进行SM3密码散列算法的快速实现：

0)OpenCL平台初始化：通过OpenCL应用程序编程接口(API)选择OpenCL平台和设备、创建设备上下文、创建kernel和初始化存储空间。

1)异步并行消息传输：调用OpenCL API将消息从内存复制到作为全局存储器的GPU的显存；

如图2所示，所述的OpenCL API通过在调用缓存线清除(clfinish)函数前调用缓存线清除(clflush)函数，当GPU进行哈希值计算时，CPU同时传输下一批次的消息，SM3摘要算法能在同样时间内进行更多批次的哈希计算，可以提高GPU设备的利用率。

2)摘要计算：SM3计算模块通过SM3快速实现方法在GPU设备端创建多个并行线程，每个线程计算多个消息摘要值，并将结果输出至显存；

3)结果输出：CPU读取显存中的结果，传输消息摘要值。

如图3所示，所述的SM3快速实现方法具体为：

a)初始化：首先对总线程数，每线程处理的输入消息数，移位寄存器初值H0～H7，以及常量值等进行初始化。

b)填充扩展：将消息进行填充扩展，得到132个消息扩展字：W₀,…,W₆₇，W'₀,…,W'₆₃。其中W₀,W₁,…,W₁₅由消息划分可得，W₁₆,…,W₆₇通过公式1扩展得到：其中：W_j为扩展消息得到的第j个字，P₁为置换函数；当W_j(15<j<68)范围，每个字仅仅和它的前16个字相关。所以在实际处理过程中，消息扩展阶段的68个字可以仅仅占用16个字的寄存器空间，该过程可为：其中：W_j为扩展消息得到的第j个字，P₁为置换函数。W'₀,…,W'₆₃的扩展公式为：其取值仅与W_j和W_j+4有关。

同样地，采用16个字的寄存器空间复用64个字。实际计算时，仅需比W滞后4个字计算即可：

c)压缩函数循环展开：SM3算法中的消息扩展函数会运行132次，压缩函数会执行64次，压缩函数需要进行常量和布尔函数替代，需要大量分支处理操作，本实施例中使用预处理宏命令减少分支和循环展开提高执行效率，具体为：

C0(A,B,C,D,E,F,G,H,w[0～15],w1[0～15],0～15,0x79cc4519)；//SM3round 0～15

C1(A,B,C,D,E,F,G,H,w[16～63],w1[16～63],16～63,0x7a879d8a)；//SM3round16～63

根据常量的不同，将压缩函数循环展开为使用压缩函数C0、C1表示的两种形式，通过预处理宏命令展开循环的同时，采用交换A～H寄存器值，减少赋值操作以进一步提高性能。

所述的SM3快速实现方法涉及的逻辑运算以及循环移位操作，通过以下OpenCL内置函数进行优化：

i)使用bitselect函数，将逻辑运算操作：GG1(x,y,z)＝(x&y)|(～x&z)替换为GG1(x,y,z)＝bitselect(z,y,x)；

ii)使用rotate函数，将循环移位操作：ROTL(x,n)((x<<n)|(x>>(32-n)))替换为ROTL(x,n)rotate(x,n)。

通过使用bitselect函数将GG1函数的指令条数从4条缩减到1条，指令条数减少了75％；通过使用内置rotate函数，可以将指令条数从3条缩减到1条，大大提高了计算效率。

d)结果存储：将本批次哈希值结果写入显存，若本批次消息摘要值计算完成，退出循环，否则继续载入本批次的消息计算摘要。

综上所述，本实施例在异步并行中，使用了消息分批异步传输方法，减少了传输开销：使用GPU-Z工具监控运行过程中的程序，GPU占用率始终在99％以上，即使用异步并行方法可以显著降低GPU空闲时间，提高了GPU占用率；将压缩函数循环展开，并减少分支操作，算法性能得到了提升。

使用CodeXL对OpenCL kernel的寄存器占用分析可知，使用寄存器复用可将矢量寄存器(VGPRs)占用量都从超过245降至57以下，同时运行的wavefront深度可提高到4，整体算法性能提高超过了1倍。而针对SM3算法进行的指令优化也可提升性能5％。

本方法在AMD R9 290 GPU上性能峰值可达11.4亿次Hash/s，SM3快速实现性能约为FPGA环境下的3.9倍。

所述的具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由所述的具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于GPU的SM3密码散列算法的快速实现方法，其特征在于，通过异步方式将待处理消息从内存复制到作为全局存储器的GPU的显存，当GPU通过包含填充扩展和压缩函数循环展开的SM3快速实现方法进行哈希值计算时，CPU同时传输下一批次的消息；GPU将计算结果输出至显存并由CPU读取显存中的结果，传输消息摘要值；所述的当前批SM3哈希值，采用压缩函数循环展开、指令优化、寄存器复用的方法计算得到。

2.根据权利要求1所述的方法，其特征是，所述的压缩函数循环展开是指：64步压缩函数循环展开：其中1～16步展开为，C0(A,B,C,D,E,F,G,H,w[0～15],w1[0～15],0～15,0x79cc4519)；17～64步展开为C1(A,B,C,D,E,F,G,H,w[16～63],w1[16～63],16～63,0x7a879d8a)。其中C0，C1分别为1～16步和17～64步的压缩函数，A～H为存储摘要值的8个寄存器，w[0]～w[68],w1[0]～w1[64]为消息扩展得到的132个字。

3.根据权利要求1所述的方法，其特征是，所述的指令优化是指：使用OpenCL内置的bitselect和rotate函数对压缩函数计算中逻辑运算和循环移位运算进行优化。

4.根据权利要求1所述的方法，其特征是，所述的寄存器复用是指：每轮16步的压缩函数仅和该轮的16个寄存器取值有关。64步消息扩展阶段采用16个字的寄存器空间复用64个字。

5.根据权利要求1所述的方法，其特征是，所述的SM3快速实现方法具体包括：

a)初始化：首先对总线程数，每线程处理的输入消息数，移位寄存器初值H0～H7，以及常量值等进行初始化；

b)填充扩展：将消息进行填充扩展，得到132个消息扩展字：W₀,…,W₆₇，W'₀,…,W'₆₃。其中W₀,W₁,…,W₁₅由消息划分可得，W₁₆,…,W₆₇通过公式1扩展得到：其中：W_j为扩展消息得到的第j个字，P₁为置换函数；当W_j(15<j<68)范围，每个字仅仅和它的前16个字相关，即其中：W_j为扩展消息得到的第j个字，P₁为置换函数，W'₀,…,W'₆₃的扩展公式为：其取值仅与W_j和W_j+4有关；

同样采用16个字的寄存器空间复用64个字，即：

c)压缩函数循环展开：使用预处理宏命令减少分支和循环展开提高执行效率，具体为：

C0(A,B,C,D,E,F,G,H,w[0～15],w1[0～15],0～15,0x79cc4519)；//SM3round0～15

6.根据权利要求3所述的方法，其特征是，所述的逻辑运算，使用bitselect函数，将逻辑运算操作：GG1(x,y,z)＝(x&y)|(～x&z)替换为GG1(x,y,z)＝bitselect(z,y,x)。

7.根据权利要求3所述的方法，其特征是，所述的循环移位操作，使用rotate函数，将循环移位操作：ROTL(x,n)((x<<n)|(x>>(32-n)))替换为ROTL(x,n)rotate(x,n)。

8.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：用于GPU进行本批次哈希值计算和CPU产生下一批消息操作异步并行化的异步并行模块、用于并行计算当前批SM3哈希值的SM3运算模块和用于从显存中读取当前批消息哈希值的数据读取模块，其中：CPU用于消息摘要值传输和记录，GPU用于并行计算当前批消息哈希值并将结果输出至显存。