CN114422110A

CN114422110A - 一种面向长指令字的sm3哈希函数消息处理的快速实现方法

Info

Publication number: CN114422110A
Application number: CN202210321831.3A
Authority: CN
Inventors: 关志; 陈钟; 何逸飞; 王珂; 孙磊
Original assignee: Boya Chain Beijing Technology Co ltd; Peking University
Current assignee: Boya Chain Beijing Technology Co ltd; Peking University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-04-29
Anticipated expiration: 2042-03-30
Also published as: CN114422110B

Abstract

本发明公开一种面向长指令字的SM3哈希函数消息处理的快速实现方法，属于安全密码应用技术领域，给出一种生成SM3的68个字长度的变量

的并行优化算法，并将这种并行算法在可同时执行向量指令和非向量指令的计算平台上具体实施实现，加快变量

Description

一种面向长指令字的SM3哈希函数消息处理的快速实现方法

技术领域

本发明属于安全密码应用技术领域，具体涉及一种面向长指令字的SM3哈希函数消息处理的快速实现方法。

背景技术

密码杂凑（Hash）函数是一类用途广泛的基础密码算法，除了用于计算数据杂凑值之外，还是数字签名、消息认证码等众多密码方案、安全协议的基本组成部分。常用的密码杂凑函数包括美国国家标准与技术研究所（NIST）发布的SHA-1算法、SHA-2系列算法、由欧洲研究者设计的RIPEMD-160算法、NIST评选的SHA-3算法等。密码杂凑函数的典型应用经常涉及大量数据处理和高速网络通信，这些应用场景对密码杂凑函数的实现性能有较高的要求。为了提高密码杂凑函数的处理速度，处理器厂商开始在CPU中提供了常用密码杂凑函数的硬件实现，例如Intel在其部分处理器中增加了支持SHA-1和SHA-256计算的CPU指令，这些算法的专用硬件指令实现相对于软件实现有非常大的性能提升。

SM3密码杂凑函数是由中国国家密码管理局公布的中国密码行业标准，用于在商用领域中取代SHA-1、SHA-2等国外算法。SM3也是目前中国商用密码标准体系中唯一的密码杂凑函数，是SM2公钥密码算法、SSL VPN协议等商用密码标准中的关键组成部分。由于目前使用最广泛的Intel/AMD X86处理器和ARM处理器并不提供SM3算法的硬件实现，故如何在这些通用处理器上提供SM3算法的高性能软件实现对SM3算法的实际应用具有重要的意义。

SM3密码杂凑函数采用了典型的Merkle-Damgård构造。算法的核心是一个压缩函数，压缩函数具有256位的内部状态，512位消息经过消息扩展函数变化后，通过压缩函数压入256位的内部状态，通过64轮迭代，输出256位的结果。SM3算法的基本运算单位是32位字。根据我国发布的《SM3密码杂凑算法》，该算法涉及的部分运算符号及相应的含义如下：

mod ：模运算；

：32位比特与运算；

：32位比特或运算；

：32位比特非运算；

：32位比特异或运算；

：mod

比特算术加运算；

：32位比特循环左移

比特运算；

：向左赋值运算符。

原始标准SM3消息扩展函数定义如下：

SM3消息扩展函数将16个字长度的消息转化成68个字长度的变量

和64个字长度的变量

，供SM3的压缩函数使用。

SM3消息扩展算法如下：

1)首先将512位的消息分组分为16个字

；

2)令

，

；

3)令

，

。

其中，

是一个线性函数，已知

，W右角标中的“+”“-”表示加法、减法。

目前主流的CPU除了基本的通用指令集之外，还包括SIMD (Single Instruction,Multiple Data)指令集等扩展指令集，例如目前主流的Intel和AMD的X86处理器支持AVX/AVX2指令集，ARM Cortex-A系列架构的移动处理器支持NEON指令集。SIMD指令集又称为向量指令集，一般提供一组和通用指令集不共享的寄存器，SIMD指令集可以在向量寄存器上执行并行计算，一个指令可以对向量寄存器中的一组数据做并行计算。

Intel AVX-2支持256位的指令集，AVX2指令集包含16个256位的向量寄存器，可以执行8路32位标量的向量计算。目前Intel和AMD的主流笔记本、桌面处理器中均支持AVX2指令集。Intel已经公布了AVX-512指令集，Haswell架构的处理器中支持AVX-512指令集。AVX-512指令集包含32个512位的向量寄存器，可以执行16路的32位字向量运算。NEON是ARMCortex-A架构的SIMD指令集。NEON架构包含16个128位的SIMD寄存器，可以这些寄存器上执行4路的32位标量的向量计算。

目前主流的Intel/AMD X86处理器和ARM处理器，都可以同时支持非向量指令集和向量指令集的计算，在ARM/NEON指令集、X86/AVX2指令集的计算平台上，常规的并行算法，往往是通过向量寄存器多路并行，同时执行多个SM3算法，但是这样的算法在执行的时候不能充分利用非向量处理器的计算资源，也无法提高单个SM3密码算法的运算速度。迫切需要一种计算资源利用更加充分，单线程SM3运算速度更快的算法。

发明内容

为了在并行环境中实现更加高效的SM3算法，针对SM3的68个字长度的变量

，本发明提出一种面向长指令字的SM3哈希函数消息处理的快速实现方法，本方法为一种SM3的68个字长度的变量

的并行化算法，并在SIMD指令集上的实现。本发明可以同时利用处理器内的向量指令运算和非向量指令运算，加快变量

运算速度，从而加快SM3密码杂凑的运算速度，更加充分地利用处理器的计算资源。

本发明提出一种面向长指令字的SM3哈希函数消息处理的快速实现方法，包括以下步骤：

针对SM3算法的68个字长度的变量

，将变量

的生成算法循环展开，并将公式

进行n轮迭代，1≤n≤17，展开与并行化过程具体包括如下步骤：

1）使用多路并行算法初始化变量

；

2）将公式

进行n轮迭代，迭代后

可以被

公式表出，这里

1；

3）已知变量

，这里

，可用同一个公式计算，

，由于计算公式相同，可以并行计算以降低运算时间。

上述步骤3）中的并行计算使用SIMD指令集中的向量指令执行，SM3算法的非并行部分使用SIMD指令集中的非向量指令执行。

进一步地，对于给定两个向量

，其中

为字，i=1,..,n，向量指令执行时的计算方式包括：

、

、

、

。

进一步地，该并行化优化方法在可同时执行向量指令和非向量指令的计算平台上，能够得到更高的SM3计算速率。

进一步地，SIMD指令集包括ARM/NEON指令集或X86/AVX2指令集，符号/表示兼有。

本发明提出的一种面向长指令字的SM3哈希函数消息处理的快速实现方法，是给出一种生成SM3的68个字长度的变量

的并行优化算法，并将这种并行算法在可同时执行向量指令和非向量指令的计算平台如ARM/NEON指令集、X86/AVX2指令集上具体实施实现。与现有技术相比，本发明的有益效果是：本发明通过将计算公式迭代，将冗余运算和冗余变量的消除，从而简化算法所需要的运算，提升运算速度；并使用多路并行，从而使得计算的逻辑操作只有非并行的1/3，结合SIMD指令集，充分利用了处理器的计算资源，大大提高了SM3算法的执行速度。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，作详细说明如下。

本发明实施例提供一种面向长指令字的SM3哈希函数消息处理的快速实现方法，以6轮迭代并行化为例，多路并行算法将SM3密码杂凑算法的展开与并行化过程具体包括如下步骤：

1）使用多路并行算法初始化变量

；

2）将公式

进行一次迭代，将

替换原公式中的变量

，因此，当

的时候，

被

变量计算生成；

3) 已知变量

，可用上述公式计算，

，由于计算公式相同，可以并行计算以降低运算时间。

下面将描述如何将对上述6轮并行算法进行向量实现。

令当前轮数为

，

为当前消息分组已经生成的扩展，每8个为一组生成下一批变量

：

；

；

；

；

；

；

；

；

；

；

；

；

；

。

上述算法可以发现

的计算过程完全相同，且依赖的数据仅和

有关，这些变量在计算

前就已知。

在具备向量指令的条件（即CPU支持向量指令集，利用向量指令集提供的向量寄存器可以执行多路并行计算）下，一批变量的相同运算可以同时执行，比如向量长度为6字的异或运算

可以同时计算得到结果。因此，上述变量

可以并行计算，将本来需要6次才能运算得到的结果，通过向量指令集一次计算得到。

以非向量指令集实现时，原始

计算需要36次异或运算和24次循环位移。而在采用6路并行算法，使用向量指令集时，需要12次异或运算和8次循环位移运算。

本实施例中给定两个向量

，其中

为字，下面给出常用向量指令的计算方式，即向量计算：

；

；

；

。

结合具体的指令集，将上述6路并行算法的计算过程实现。

已知

，可并行实现上述过程，假设

和

是6个字组成的向量变量，并行计算可以如下表示：

；

；

；

；

；

；

；

；

；

；

；

；

；

；

；

；

；

；

；

；

。

可以看到，本发明方法进行6路并行将计算同样变量的所需的运算次数降低。

表1 计算1组

的代价

以下给出对本发明方法进行具体实现的两组实施例。

实施例1：ARM/NEON指令集实现。

ARM处理器是目前手机等智能移动设备采用的主流处理器，其中部署最广泛的Cortex-A系列ARM处理器架构除了包含ARM通用指令集(ARMv7指令集)，还包含NEON SIMD指令集。NEON指令集包含16个128位的SIMD寄存器，可以做4路32位字的并行计算，因此可以将本发明的SM3压缩函数4路并行算法中的向量计算以NEON指令实现，除了上述向量指令以外的其他指令以常规的ARM通用指令实现，可以使用高级语言编写并通过编译实现。

下面给出用到的NEON指令，这些指令以伪函数（Intrinsics）的方式给出，该伪函数是指下文的veorq_s32、vrshlq_s32、vaddq_s32、vld1q_s32，其中int32x4_t为128位的NEON向量寄存器：

c

a

b : 使用指令int32x4_t c = veorq_s32 (int32x4_t a, int32x4_t b)；

c

a

k : 使用指令int32x4_t c = vrshlq_s32 (int32x4_t a, int32x4_ t k)；

c

a

b : 使用指令int32x4_t c = vaddq_s32 (int32x4_t a, int32x4_t b)；

c

b : 使用指令int32x4_t c = vld1q_s32 (int32_t const * ptr_of_b)。

由于NEON向量寄存器最大支持4个32比特字的计算，因此根据表1，需要12次 veorq_s32指令和8次 vrshlq_s32 指令完成1组

的计算，总计20次逻辑运算。

实施例2：X86/AVX2指令集实现。

非向量指令代码可以使用高级语言编写并通过编译实现，向量指令使用AVX2指令实现。

c

a

b : 使用指令__m256i c = _mm256_xor_si256 (__m256i a, __m256i b)；

c

a

k : AVX2不支持循环位移，需要三个操作实现：

向量左移 _mm256_sllv_epi32 (__m256i a, __m256i count)；

向量右移 _mm256_srlv_epi32 (__m256i a, __m256i count)；

向量或 _mm256_or_si256 (__m256i a, __m256i b)。

总的执行语句如下：

__mm256i c = mm256_or_si256 (_mm256_sllv_epi32 (a, k), _mm256_srlv_ epi32 (a, 32-k))；

c

a

b : 使用指令__m256i c = _mm256_xor_si256 (__m256i a, __m256i b)；

c

b : __m256i c = _mm256_stream_load_si256 (__m256i const* mem_ addr_of_b)。

由于AVX2向量寄存器最大支持8个32比特字的计算，因此根据表1，需要12次 _ mm256_xor_si256指令、8次 _mm256_sllv_epi32 指令、8次 _mm256_srlv_epi32指令、8次 _mm256_or_si256指令完成1组

的计算，总计36次逻辑运算。

需要注意的是，上述实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解，在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。