CN104951702B

CN104951702B - 用于有效地执行散列操作的方法和设备

Info

Publication number: CN104951702B
Application number: CN201510096246.8A
Authority: CN
Inventors: G·M·沃尔里齐; V·戈帕尔; K·S·雅普; W·K·费格哈利
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-03-27
Filing date: 2015-03-04
Publication date: 2018-11-09
Anticipated expiration: 2035-03-04
Also published as: JP6051458B2; TWI610184B; CN104951702A; JP2015212804A; US9912481B2; KR20150112782A; TWI575388B; GB201503156D0; TW201546628A; KR101732046B1; TW201738773A; US20150280917A1; GB2528343B; GB2528343A; DE102015002254A1

Abstract

描述了用于在处理器上执行散列函数的设备和方法。例如，处理器的一个实施例包括：寄存器组，包括其中将存储散列函数的状态变量的第一存储位置和第二存储位置；执行单元，用于执行所述散列函数，并最初指定所述第一存储位置，用于存储用于计算所述散列函数的轮次的第一组状态值，并最初指定第二存储位置，用于存储也用于计算所述散列函数的轮次的第二组状态值；以及，所述执行单元使用所述第一和第二组状态数据，执行多轮次的所述散列函数，其中，执行包括交换所述第一存储位置和第二存储位置的所述指定，以便所述第一存储位置被指定为存储用于第一组轮次的所述第一组状态值和用于第二组轮次的所述第二组状态值，其中所述第二存储位置被指定为存储用于所述第一组轮次的所述第二组状态值和用于所述第二组轮次的所述第一组状态值。

Description

用于有效地执行散列操作的方法和设备

背景技术

发明领域

本发明总体涉及计算机处理器领域。更具体而言，本发明涉及用于有效地执行散列操作的方法和设备。

相关技术描述

安全消息SM3散列函数是由中国商业加密管理局为了因特网工程任务组(IETF)和网络研究任务组(IRTF)社区的方便发布的新的加密函数。SM3当前被中国信息安全标准化技术委员会(简称为TC260)倡议指定为用于TCM(受信任的计算模块)的散列算法。SM3的设计通过添加附加特征以加强散列函数，诸如与在SHA-2的情况下只馈送一个消息导出的字相反，向每一轮次馈送两个消息导出的字，建立在安全散列算法(SHA)-2的设计作上。

附图说明

结合以下附图，从以下具体实施方式中可获得对本发明更好的理解，其中：

图1A是示出根据本发明的实施例的示例性有序取出、解码、引退流水线以及示例性寄存器重命名的无序发布/执行流水线两者的框图；

图1B是示出根据本发明的各实施例的要包括在处理器中的有序取出、解码、引退核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框图；

图2是根据本发明的实施例的具有集成的存储器控制器和图形器件的单核处理器和多核处理器的框图；

图3示出根据本发明的一个实施例的系统的框图；

图4示出根据本发明的实施例的第二系统的框图；图5示出根据本发明的实施例的第三系统的框图；

图6示出了根据本发明的实施例的芯片上系统(SoC)的框图；

图7示出根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图；

图8示出可在其上实现本发明的实施例的处理器架构的一个实施例；

图9示出了在实现安全消息(SM)-3散列函数的一轮中执行的操作；

图10示出了用于执行散列操作的不同的轮次的架构和相关联的技术的一个实施例；以及

图11示出了根据本发明的一个实施例的用于执行散列函数的多轮次的方法。

具体实施方式

在下面的描述中，出于说明目的，阐述了众多具体细节以便提供对以下描述的本发明的实施例的全面理解。然而，对本领域的技术人员显而易见的是，可以在没有这些具体细节中的一些细节的情况下实施本发明的实施例。在其他实例中，公知的结构和设备以框图形式示出，以避免使本发明实施例的基本原理不清楚。

示例性处理器架构和数据类型

图1A是示出根据本发明的各实施例的示例性有序取出、解码、引退流水线和示例性的寄存器重命名的无序发布/执行流水线的框图。图1B是示出根据本发明的各实施例的要包括在处理器中的有序取出、解码、引退核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框图。图1A-B中的实线框示出了流水线和核的有序部分，而可选增加的虚线框示出了寄存器重命名的、无序发布/执行流水线和核。

在图1A中，处理器流水线100包括取出级102、长度解码级104、解码级106、分配级108、重命名级110、调度(也称为分派或发布)级112、寄存器读取/存储器读取级114、执行级116、写回/存储器写入级118、异常处理级122和提交级124。

图1B示出了包括耦合到执行引擎单元150的前端单元130的处理器核190，且执行引擎单元和前端单元两者都耦合到存储器单元170。核190可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或替代核类型。作为又一选项，核190可以是专用核，诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理器单元(GPGPU)核、或图形核等等。

前端单元130包括耦合到指令高速缓存单元134的分支预测单元132，该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)136，该指令转换后备缓冲器耦合到指令取出单元138，指令取出单元耦合到解码单元140。解码单元140(或解码器)可解码指令，并生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元140可使用各种不同的机制来实现。合适的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核190包括(例如，在解码单元140中或否则在前端单元130内的)微代码ROM或存储某些宏指令的微代码的其他介质。解码单元140耦合至执行引擎单元150中的重命名/分配器单元152。

执行引擎单元150包括重命名/分配器单元152，该重命名/分配器单元耦合至引退单元154和一个或多个调度器单元156的集合。调度器单元156表示任何数目的不同调度器，包括预留站、中央指令窗等。调度器单元156耦合到物理寄存器组单元158。每个物理寄存器组单元158表示一个或多个物理寄存器组，其中不同的物理寄存器组存储一种或多种不同的数据类型，诸如标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点、状态(例如，作为要执行的下一指令的地址的指令指针)等。在一个实施例中，物理寄存器组单元158包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、和通用寄存器。物理寄存器组单元158与引退单元154重叠以示出可以用来实现寄存器重命名和无序执行的各种方式(例如，使用重新排序缓冲器和引退寄存器组；使用将来的文件、历史缓冲器和引退寄存器组；使用寄存器映射和寄存器池等等)。引退单元154和物理寄存器组单元158耦合到执行群集160。执行群集160包括一个或多个执行单元162的集合和一个或多个存储器访问单元164的集合。执行单元162可以对各种类型的数据(例如，标量浮点、紧缩整数、紧缩浮点、向量整型、向量浮点)执行各种操作(例如，移位、加法、减法、乘法)。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元，但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。调度器单元156、物理寄存器组单元158和执行群集160被示为可能有多个，因为某些实施例为某些类型的数据/操作创建分开的流水线(例如，标量整型流水线、标量浮点/紧缩整型/紧缩浮点/向量整型/向量浮点流水线，和/或各自具有其自己的调度器单元、物理寄存器组单元和/或执行群集的存储器访问流水线——以及在分开的存储器访问流水线的情况下，实现其中仅该流水线的执行群集具有存储器访问单元164的某些实施例)。还应当理解，在使用分开的流水线的情况下，这些流水线中的一个或多个可以为无序发布/执行，并且其余流水线可以为有序发布/执行。

存储器访问单元164的集合耦合到存储器单元170，该存储器单元包括耦合到数据高速缓存单元174的数据TLB单元172，其中数据高速缓存单元耦合到二级(L2)高速缓存单元176。在一个示例性实施例中，存储器访问单元164可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合至存储器单元170中的数据TLB单元172。指令高速缓存单元134还耦合到存储器单元170中的第二级(L2)高速缓存单元176。L2高速缓存单元176耦合到一个或多个其他级的高速缓存，并最终耦合到主存储器。

作为示例，示例性寄存器重命名的、无序发布/执行核架构可以如下实现流水线100：1)指令取出138执行取出和长度解码级102和104；2)解码单元140执行解码级106；3)重命名/分配器单元152执行分配级108和重命名级110；4)调度器单元156执行调度级112；5)物理寄存器组单元158和存储器单元170执行寄存器读取/存储器读取级114；执行群集160执行执行级116；6)存储器单元170和物理寄存器组单元158执行写回/存储器写入级118；7)各单元可牵涉到异常处理级122；以及8)引退单元154和物理寄存器组单元158执行提交级124。

核190可支持一个或多个指令集(例如，x86指令集(具有与较新版本一起添加的一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼州桑尼维尔市的ARM控股的ARM指令集(具有诸如NEON等可选附加扩展))，其中包括本文中描述的各指令。在一个实施例中，核190包括用于支持紧缩数据指令集扩展(例如，在下文中描述的AVX1、AVX2和/或某种形式的一般向量友好指令格式(U＝0和/或U＝1))的逻辑，从而允许很多多媒体应用使用的操作能够使用紧缩数据来执行。

应当理解，核可支持多线程化(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程化，此各种方式包括时分多线程化、同步多线程化(其中单个物理核为该物理核正在同步多线程化的各线程中的每一个线程提供逻辑核)、或其组合(例如，时分取出和解码以及此后诸如用超线程化技术来同步多线程化)。

尽管在无序执行的上下文中描述了寄存器重命名，但应当理解，可以在有序架构中使用寄存器重命名。尽管所示出的处理器的实施例还包括分开的指令和数据高速缓存单元134/174以及共享L2高速缓存单元176，但替代实施例可以具有用于指令和数据两者的单个内部高速缓存，诸如例如一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者，所有高速缓存都可以在核和/或处理器的外部。

图2是根据本发明的各实施例的可能具有一个以上核、可能具有集成存储器控制器、以及可能具有集成图形器件的处理器200的框图。图2中的实线框示出具有单个核202A、系统代理210、一个或多个总线控制器单元216的集合的处理器200，而虚线框的可选附加示出具有多个核202A-N、系统代理单元210中的一个或多个集成存储器控制器单元214的集合以及专用逻辑208的替代处理器200。

因此，处理器200的不同实现可包括：1)CPU，其中专用逻辑208是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，并且核202A-N是一个或多个通用核(例如，通用有序核、通用无序核、这两者的组合)；2)协处理器，其中核202A-N是旨在主要用于图形和/或科学(吞吐量)的多个专用核；以及3)协处理器，其中核202A-N是多个通用有序核。因此，处理器200可以是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、或嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器200可以是一个或多个衬底的一部分，和/或可以使用诸如例如BiCMOS、CMOS或NMOS等的多个加工技术中的任何一个技术将处理器200实现在一个或多个衬底上。

存储器层次结构包括在各核内的一个或多个级别的高速缓存、一个或多个共享高速缓存单元206的集合、以及耦合至集成存储器控制器单元214的集合的外部存储器(未示出)。该共享高速缓存单元206的集合可以包括一个或多个中间级高速缓存，诸如二级(L2)、三级(L3)、四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)、和/或其组合。尽管在一个实施例中，基于环的互连单元(例如，环212)将专用逻辑208、共享高速缓存单元206的集合以及系统代理单元210/集成存储器控制器单元214互连，但替代实施例可使用任何数量的公知技术来将这些单元互连。在一个实施例中，维持一个或多个高速缓存单元206和核202A-N之间的一致性(coherency)。

在一些实施例中，核202A-N中的一个或多个核能够多线程化。系统代理210包括协调和操作核202A-N的那些组件。系统代理单元210可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括用于调整核202A-N和集成图形逻辑208的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核202A-N在架构指令集方面可以是同构的或异构的；即，这些核202A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。在一个实施例中，核202A-N是异构的并且包括下述“小型”核和“大型”核。

图3-6是示例性计算机架构的框图。本领域已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地，能够包含本文中所公开的处理器和/或其他执行逻辑的多个系统和电子设备一般都是合适的。

现在参考图3，所示出的是根据本发明一个实施例的系统300的框图。系统300可以包括一个或多个处理器310、315，这些处理器耦合到控制器中枢320。在一个实施例中，控制器中枢320包括图形存储器控制器中枢(GMCH)390和输入/输出中枢(IOH)350(其可以在分开的芯片上)；GMCH 390包括存储器和图形控制器，存储器340和协处理器345耦合到该存储器和图形控制器；IOH 350将输入/输出(I/O)设备360耦合到GMCH390。或者，存储器和图形控制器中的一个或两者可以被集成在处理器内(如本文中所描述的)，存储器340和协处理器345直接耦合到处理器310以及控制器中枢320，该控制器中枢与IOH 350处于单个芯片中。

附加处理器315的任选性质用虚线表示在图3中。每一处理器310、315可包括本文中描述的处理核中的一个或多个，并且可以是处理器200的某一版本。

存储器340可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢320经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接395与处理器310、315进行通信。

在一个实施例中，协处理器345是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。在一个实施例中，控制器中枢320可以包括集成图形加速器。

在物理资源(例如，处理器310、315)之间可以存在包括架构、微架构、热、和功耗特征等的一系列品质度量方面的各种差异。

在一个实施例中，处理器310执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器310将这些协处理器指令识别为应当由附连的协处理器345执行的类型。因此，处理器310在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器345。协处理器345接受并执行所接收的协处理器指令。

现在参考图4，所示为根据本发明的一实施例的更具体的第一示例性系统400的框图。如图4所示，多处理器系统400是点对点互连系统，并包括经由点对点互连450耦合的第一处理器470和第二处理器480。处理器470和480中的每一个都可以是处理器200的某一版本。在本发明的一个实施例中，处理器470和480分别是处理器310和315，而协处理器438是协处理器345。在另一实施例中，处理器470和480分别是处理器310和协处理器345。

处理器470和480被示为分别包括集成存储器控制器(IMC)单元472和482。处理器470还包括作为其总线控制器单元的一部分的点对点(P-P)接口476和478；类似地，第二处理器480包括点对点接口486和488。处理器470、480可以使用点对点(P-P)接口电路478、488经由P-P接口450来交换信息。如图4所示，IMC 472和482将各处理器耦合至相应的存储器，即存储器432和存储器434，这些存储器可以是本地附连至相应的处理器的主存储器的部分。

处理器470、480可各自使用点对点接口电路476、494、486、498经由各个P-P接口452、454与芯片组490交换信息。芯片组490可以可选地经由高性能接口439与协处理器438交换信息。在一个实施例中，协处理器438是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。

共享高速缓存(未示出)可以被包括在任一处理器之内，或被包括在两个处理器外部但仍经由P-P互连与这些处理器连接，从而如果将某处理器置于低功率模式时，可将任一处理器或两个处理器的本地高速缓存信息存储在该共享高速缓存中。

芯片组490可经由接口496耦合至第一总线416。在一个实施例中，第一总线416可以是外围组件互连(PCI)总线，或诸如PCI Express总线或另一第三代I/O互连总线之类的总线，但本发明的范围并不受此限制。

如图4所示，各种I/O设备414可以连同总线桥418耦合到第一总线416，该总线桥将第一总线416耦合至第二总线420。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(诸如例如图形加速器或数字信号处理器(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器415耦合到第一总线416。在一个实施例中，第二总线420可以是低引脚计数(LPC)总线。各种设备可以被耦合至第二总线420，在一个实施例中这些设备包括例如键盘/鼠标422、通信设备427以及诸如可包括指令/代码和数据430的盘驱动器或其他大容量存储设备的存储单元428。此外，音频I/O 424可以被耦合至第二总线420。注意，其他架构是可能的。例如，代替图4的点对点架构，系统可以实现多分支总线或其他这类架构。

现在参考图5，所示为根据本发明的实施例的更具体的第二示例性系统500的框图。图4和图5中的相同部件用相同附图标记表示，并从图5中省去了图4中的某些方面，以避免使图5的其他方面变得模糊。

图5示出处理器470、480可分别包括集成存储器和I/O控制逻辑(“CL”)472和482。因此，CL 472、482包括集成存储器控制器单元并包括I/O控制逻辑。图5示出不仅存储器432、434耦合至CL 472、482，而且I/O设备514也耦合至控制逻辑472、482。传统I/O设备515被耦合至芯片组490。

现在参照图6，所示出的是根据本发明一个实施例的SoC 600的框图。图2中相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图6中，互连单元602被耦合至：应用处理器610，该应用处理器包括一个或多个核502A-N的集合以及共享高速缓存单元506；系统代理单元510；总线控制器单元516；集成存储器控制器单元514；一组或一个或多个协处理器620，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元630；直接存储器存取(DMA)单元632；以及用于耦合至一个或多个外部显示器的显示单元640。在一个实施例中，协处理器620包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码(诸如图4中示出的代码和数据430)应用于输入指令，以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在代表处理器之内的各种逻辑的机器可读介质上的表示性指令来实现，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的机器可读介质上，并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

这样的机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排，其包括存储介质，诸如：硬盘；任何其他类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘；半导体器件，例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其他类型的介质。

因此，本发明的各实施例还包括非瞬态的有形机器可读介质，该介质包含指令或包含设计数据，诸如硬件描述语言(HDL)，它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。

在一些情况下，指令转换器可用来将指令从源指令集转换至目标指令集。例如，指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式将指令转换成将由核来处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

图7是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中，指令转换器是软件指令转换器，但作为替代，该指令转换器可以用软件、固件、硬件或其各种组合来实现。图7示出可以使用x86编译器704来编译利用高级语言702的程序，以生成可以由具有至少一个x86指令集核的处理器716原生执行的x86二进制代码706。具有至少一个x86指令集核的处理器716表示任何处理器，这些处理器能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能：1)英特尔x86指令集核的指令集的本质部分，或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行的应用或其他程序的目标代码版本，以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果。x86编译器704表示用于生成x86二进制代码706(例如，目标代码)的编译器，该二进制代码706可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器716上执行。类似地，图7示出可以使用替代的指令集编译器708来编译利用高级语言702的程序，以生成可以由不具有至少一个x86指令集核的处理器714(例如，具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代指令集二进制代码710。指令转换器712被用来将x86二进制代码706转换成可以由不具有x86指令集核的处理器714原生执行的代码。该转换后的代码不大可能与替代性指令集二进制代码710相同，因为能够这样做的指令转换器难以制造；然而，转换后的代码将完成一般操作并由来自替代指令集的指令构成。因此，指令转换器712通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码706的软件、固件、硬件或其组合。

寄存器组寄存器组寄存器组寄存器组

用于有效地执行散列操作的方法和设备

本发明的一个实施例包括用于有效地执行散列操作的新的指令和支持硬件。尽管下面所描述的各实施例的焦点是SM3散列算法，但是，本发明的基础原理不仅限于为SM3提供的特定实现。例如，下面所描述的用于实现SM3的相同技术可以被用来有效地执行其他散列算法和/或其他类型的处理功能。此外，尽管一个实施例被实现为对英特尔架构(IA)的扩展，但是，本发明的基础原理不仅限于任何特定ISA。

如图8所示，可以在其上面实现本发明的各实施例的示例性处理器855包括带有执行此处所描述的有效率的散列技术的散列函数执行逻辑841的执行单元840。当执行单元840执行指令流时，寄存器集合805为操作数、控制数据和其他类型的数据提供寄存器存储。在一个实施例中，寄存器集合805包括128位寄存器，诸如作为IA流式SIMD扩展(SSE)架构的一部分指定的XMM单指令多数据(SIMD)寄存器。可另选地，或另外，寄存器还可以包括256位寄存器，诸如作为IA高级矢量扩展(AVX)2架构的一部分指定的YMM SIMD寄存器。然而，本发明的基础原理不仅限于特定寄存器类型或寄存器大小。

为简单起见，在图8中示出单个处理器核(“核0”)的细节。然而，将会理解，图8中所示的每个核都可具有与核0相同的逻辑集合。如图所示，每一核也可以包括用于根据指定的高速缓存管理策略来高速缓存指令和数据的专用1级L1高速缓存812和2级L2高速缓存811。L1高速缓存812包括用于存储指令的单独的指令高速缓存820和用于存储数据的单独的数据高速缓存821。存储在各种处理器高速缓存之内的指令和数据以可以是固定尺寸(如，128字节、512字节长度的)高速缓存行的粒度被管理。此示例性实施例的每一核都具有用于从主存储器800取出指令的指令取出单元810和/或共享的3级L3高速缓存816；用于解码指令(例如，将程序指令解码为微操作或“uops”)的解码单元830；用于执行指令(例如，如此处所描述的断言指令)的执行单元840；以及，用于引退指令并回写结果的写回/引退单元850。

指令取出单元810包括各种公知的组件，包括：用于存储要从存储器800(或高速缓存中的一个)取出的下一指令的地址的下一指令指针803；用于存储最近使用的虚拟向物理指令地址的映射以改善地址转换速度的转换后备缓冲器(ILTB)804；用于推测地预测指令分支地址的分支预测单元802；以及用于存储分支地址和目标地址的分支目标缓冲器(BTB)801。一旦被取出，随后指令被流式地传送到指令流水线的其余的级，包括，解码单元830、执行单元840和写回单元850。本领域普通技术人员已很好地理解这些单元中的每一个的结构和功能，将不在此详细对其进行描述以避免混淆本发明的不同实施例的相关方面。

如上文所提及的，在一个实施例中，执行单元840内的散列函数执行逻辑841执行各种技术以更加有效地处理SM3散列算法。因此，将首先提供SM3散列算法的基本原理的简短描述，接下来是本发明的各实施例的详细描述。

如此处所使用的，“消息”是指在其上面正在执行SM3散列的二进制代码。“消息摘要”或“摘要”是散列操作的最终结果。SM3算法指定将消息分段为完全512位块的“填充”方法。对512位块的序列执行SM3压缩算法，中间块的输出状态充当用于下一512位块压缩的输入状态。每一个块压缩的状态和最后的摘要都是256位值。256位状态值被分割为八个32位“字”，被称为字A，B，C，D，E，F，G和H，并以“大端(Big Endian)”格式指定(A，然后，B...等等)。图9用图形方式示出了在其中第一组状态值901被转换为第二组状态值902的处理轮次中执行的操作。初始状态值是在SM3标准中定义的常数。具体而言，用于512位块的压缩函数被定义为如下：

ABCDEFGH←Vⁱ

FORj＝0TO 63

SS1←((A＜＜＜12)+E+(T_j＜＜＜j))＜＜＜7

TT1←FF_j(A，B，C)+D+SS2+W_J′

TT2←GG_j(E，F，G)+H+SS1+W_j

D←C

C←B＜＜＜9

B←A

A←TT1

H←G

G←F＜＜＜19

F←E

E←P_O(TT2)

ENDFOR

其中：

变量SS1，SS2，TT1，以及TT2是用于每一迭代的内部中间值。对于0≤j≤15，T_j被指定为79cc4519，对于16≤j≤63，T_j被指定7a879d8a。对于每一轮次的(T_j<<<j)输入可以是预定的，并从由轮次值j引用的表中加载。P₀函数是被指定为P₀(X)＝Xxor(X＜＜＜9)xor(X＜＜＜17)的线性转换置换函数。

正在被压缩的512位块被分割为以大端形式作为W0到W15引用的十六个32位字。W′输入被指定为W′_j＝W_j xor W_j+4，如此，W′0到W′11可以利用来自初始块数据单一异或函数来确定。

根据按如下方式指定的“消息扩展”(消息调度程序)，开发用于轮次16到63的Wj输入和用于轮次12到63的W′_j输入：

W_j＝P1W_j-16x_orW_j-9xor(W_j-3＜＜＜15))xor(W_j-13＜＜＜7)xorW_j-6

其中，P1是被指定为如下的另一置换函数：

P₁(X)＝X xor(X＜＜＜15)xor(X＜＜＜23)。

另外，计算用于j＝64到j＝67的W_j，以在对于轮次60到63的W′_j开发过程中，支持W_j+4项。

本发明的一个实施例包括利用128位寄存器组，诸如作为IA流式SIMD扩展(SSE)架构的一部分指定的XMM单指令多数据(SIMD)寄存器，或利用256位寄存器组，诸如作为IA高级矢量扩展(AVX)2架构的一部分指定的YMM SIMD寄存器，增强处理器上的SM3散列算法的性能的新的指令。对于128位SSE架构指定的指令要求使用隐操作数寄存器，但是，具有允许使用相同的基于XXM的指令在有功率效率的高性能核的较宽的范围内进行SM3加速的优点。

本发明的一个实施例利用这样的事实：尽管SM3状态包含8个状态变量A到H，但是，变量B，D，F以及H通过简单地分别重复使用前一轮次的变量A，C，E以及G来更新，因此，不需要计算。具体而言，如上文所讨论的，对于当前轮次：

B(当前轮次)←A(前一轮次)，

D(当前轮次)←C(前一轮次)，

F(当前轮次)←E(前一轮次)，以及

H(当前轮次)←G(前一轮次)

如此，本发明的一个实施例对于每一轮只计算状态变量A，C，E，G，如下：

变量A通过TT1来更新并且

变量E通过P₀(TT2)来更新

变量C通过最后一轮变量B＜＜＜9，来更新

变量G通过最后一轮变量F＜＜＜19来更新。

如下面所描述的，通过简单地在每一处理轮次改变寄存器指定，确定剩余状态值B、D、F以及H。

具体而言，256位的总SM3状态要求两个128位XMM寄存器(例如，xmm1和xmm2)，但是，存在的问题是如何理想地分割八个变量A-H。通过使用上面的观察，本发明的一个实施例使用下列有效率的寄存器分割。如图10所示，SM3状态变量被保存在两个XMM寄存器中，XMM1 1002和XMM2 1010，且XMM1 1002包含用于奇数轮次的A，C，E以及G，以及用于偶数轮次的B，D，F以及H，XMM2 1010包含用于奇数轮次的B，D，F以及H，以及用于偶数轮次的A，C，E以及G。图10示出了轮次0的细节(如由A₀-G₀指定所指示的)，轮次0使用周期1-3得出对于轮次1存储在XMM21010中的值A₁，C₁，E₁以及G₁。

注意，图10示出了在每一周期计算值涉及的逻辑，但是没有具体地标识可以在流水线化的处理器架构内使用的流水线技术或其他实现细节。这些细节被精通本技术的人员很好地理解，但在图10中没有示出，以避免使本发明的基础原理模糊。

对于128位数据路径和寄存器组，用于更新单轮次SM3散列的指令的一个实施例被指定为：

SM3RND XMMsrcdst,XMMsrc,IMM

其中，XMMsrcdst对于奇数轮次，是XMM 1 1002，对于偶数轮次，是XMM2 1010，XMMsrc对于偶数轮次，是XMM1 1002，对于奇数轮次，是XMM2 1010。在一个实施例中，立即数值IMM，对于j＝0到15，被设置为0，对于j＝16到63，被设置为1。

转向图10所示的具体细节，在一个实施例中，XMM0 1001是轮次0的周期1的包含(T_j<<<j)，W_j和W′_j的暗示的源。这些值以及来自XMM1 1002的A₀，C₀，E₀以及G₀用于计算周期2的值。内部临时存储器(例如，TEM 1 1008)(例如，非架构寄存器或缓冲器)存储SS2，SS1，W_j'以及W_j的新值，如图所示。按如下方式计算SS1。使用操作符1003使值A左旋转12次；进位保留加法器(例如，3:2CSA 1004)与加法器1005相结合，将A<<<12结果与E和Tj<<<J组合；然后，使用操作符1006使组合的结果左旋转7次。通过使用XOR操作符1007，将A<<<12与SS1异或，来计算SS2。通过XMM0 1001，传送W_j'和W_j的值，如图所示。

周期2从上面的值开始，存储在XMM1 1002中的A₀，C₀，E₀以及G₀的初始值，以及存储在XMM2 1010中的B₀，D₀，F₀以及H₀的初始值。按如下方式在周期2-3中计算A，C，E以及G的新的值(标识为A₁，C₁，E₁以及G₁以暗示轮次1)，并存储在XMM2 1010中。操作符1011使用A₀，B₀以及C₀作为输入，生成FF_j(A，B，C)(参见上面的FF_j的公式)，操作符1013使用E₀，F₀，以及G₀作为输入，生成GG_j(E，F，G)(参见上面的GG_j的公式)。然后，使用进位保留加法器(例如，3:2CSA1012和1015)以及加法器1017，使用FF_j(A₀,B₀,C₀)+D₀+SS2+Wj'，计算A₁的值。通过操作符1018，使用左旋转9的B₀的值，计算C₁的值。通过将P₀乘以GGj(E₀,F₀,G₀)+H₀+SS1+W_j，计算E1的值，GGj(E₀,F₀,G₀)+H₀+SS1+W_j是利用进位保留加法器(例如，3:2CSA 1014和1016)，以及加法器1019计算出的。P₀函数是指定为P₀(X)＝(X<<<9)xor(X<<<17)的线性转换置换函数。如此，通过对GGj(E₀,F₀,G₀)+H₀+SS1+W_j执行P₀线性转换置换，计算E₁。通过操作符1020向左旋转F₀达9，计算G₁的值。

具体来说，在周期2-3只计算A₁，C₁，E₁以及G₁的值。B₁，D₁，F₁以及H₁的值取A₀，C₀，E₀以及G₀的先验值。如上文所提及的，XMMsrcdst对于奇数轮次，是XMM 1 1002，对于偶数轮次，是XMM2 1010，XMMsrc对于偶数轮次，是XMM1 1002，对于奇数轮次，是XMM2 1010。如此，来自一个轮的A，C，E以及G的值不独立地计算，或当这些值在下一轮次中变为B，D，F，以及H时物理地移到新的寄存器。相反，借助于XMM1/XMM2寄存器指定的交换，这些值简单地变为B，D，F以及H，由此，节省处理资源。

在一替换实施例中(例如，使用AVX2或带有256位寄存器的其他架构)，在单一YMMSIMD寄存器中对于一轮SM3执行完全状态更新的使用256位YMM寄存器的指令可以被指定为SM3RND YMM1，YMM2，其中，YMM1是8x 32位SM3状态的源/目的地寄存器，YMM2是对于当前轮次包含(T_j<<<j)W_j和W＇_j的源寄存器。

第二较高性能替代的定义可以在五周期SIMD管中执行SM3散列的两个完整的轮次，并被指定为：

SM3RNDS2 YMM1,YMM2,YMM3

其中，YMM1是源/目的地寄存器，轮次j的SM3状态作为源，轮次j+2的所产生的SM3状态作为目的地被写回。在此实施例中，YMM2是W_j，W_j＇，W_j+1和W＇_j+1的源寄存器，而YMM3是T_j和T_j+1的源寄存器。注意，在一个实施例中，这是只利用两个寄存器指定的，YMM2保留W_j，W_j′，W_j+1和W′_J+1T_j和T_j+1中的全部。

对于单和双SM3轮次指令替代方案，可以在使用参数作为输入的轮次指令前面，并与以前的轮次的轮次指令并行地，计算轮次16到63的Wj和轮次12到63的W′_j+1，以便SM3性能不受消息扩展的影响。

图11示出根据本发明的一个实施例的方法。在1101，在处理器内初始化诸如SM3之类的散列操作。例如，可以解码此处所描述的SM3指令中的一个，将所产生的uops提供给执行单元的一个或多个执行端口。另外，还在合适的存储位置设置执行散列操作所需的初始值。例如，如上文所描述的，可以更新XMM0，以包含用于第一轮次处理的(T_j<<<j)W_j和W′_j。类似地，可以利用SS2，SS1，W_j'和W_j的值，更新图10所示的临时存储1008。

在1102，第一组状态值(例如，A₀，C₀，E₀和G₀)存储在第一组逻辑存储位置(例如，XMM1)，第二组状态值(例如，B₀，D₀，F₀以及H₀)存储在第二组逻辑存储位置(例如，XMM2)。在1103，“奇数”轮次的处理使用第一和第二组状态值来执行，以生成更新的第一组状态值(例如，计算新的值A₁，C₁，E₁以及G₁)。

在1104，交换对于第一逻辑存储位置和第二逻辑存储位置的指定，以便第二组状态值自动地被设置为等于非更新的第一组状态值。例如，在图10所示的实施例中，SM3状态变量被保存在两个XMM寄存器中，XMM11002和XMM2 1010，XMM1 1002包含用于奇数轮次的A，C，E以及G，以及用于偶数轮次的B，D，F以及H，XMM2 1010包含用于奇数轮次的B，D，F以及H，以及用于偶数轮次的A，C，E以及G。如此，在每一轮次，通过简单地交换寄存器指定(即，哪些状态变量被存储在哪些寄存器中的指示)，B，D，F以及H的值分别自动地设置为A，C，E以及G的先验值。如此，如此处所使用的，交换存储位置的“指定”意味着改变数据被存储在存储位置的指示。

在1105，新计算出的值A，C，E以及G存储在新指定的第二逻辑存储位置(例如，在图10中所示出的示例中，A₁，C₁，E₁以及G₁存储在XMM2中)，在1106，偶数轮次的计算使用第一和第二组状态变量来执行，以再次更新第一组状态变量(例如，A，C，E以及G)。

在1107，再者交换对于第一逻辑存储位置和第二逻辑存储位置的指定，以便第二组状态值自动地被设置为等于非更新的第一组状态值。如上文所提及的，在一个实施例中，包含A，C，E以及G和B，D，F以及H的指定的寄存器对于偶数和奇数轮次而交换。如此，通过交换寄存器指定，B，D，F以及H的值再次分别自动地设置为A，C，E以及G的先验值。在1108，更新的第一组的状态值被存储在第一逻辑存储位置(例如，在图10中的XMM1中)。然后，该方法迭代1103到1108，直到散列操作完成，在1109确定。

最佳SM3实现是目前FPGA或ASIC专用硬件。软件中的SM3的性能由于在每一SM3轮次和消息扩展的计算中要求的依赖的操作的数量而较差。此处所描述的SM3RND指令的添加允许在五个处理器周期内执行两轮次SM3散列压缩函数，或在三个处理器周期内完成单轮次SM3。这估计提供相对于更好的软件实现的4倍以上的改善。

在其他实施例中，立即数字节用于指定j(并非包含T_j的YMM寄存器)。在这些实施例中，YMM2可以包含W值，而YMM3可以包含W＇。此外，可以以与上文所描述的同样的方式定义YMM2，其还包括组合的W&W＇值(而不要求YMM3)。

在上述说明书中，已经参考特定示例性实施例描述了本发明。然而，显然可对这些实施例作出各种修改和改变，而不背离如所附权利要求所述的本发明的更宽泛精神和范围。因此，说明书和附图应被认为是说明性而非限制性意义。

本发明的实施例可以包括以上描述的各个步骤。这些步骤可在用于致使通用或专用处理器执行所述步骤的机器可执行指令中实现。另选地，这些步骤可由包含用于执行这些步骤的硬连线逻辑的专用硬件组件来执行，或由编程的计算机组件和自定义的硬件组件的任何组合来执行。

如在此所述的，指令可以指硬件的具体配置，如被配置成执行特定操作或具有预定功能的专用集成电路(ASIC)或者存储在嵌入非暂态计算机可读介质中的存储器中的软件指令。如此，图形中所示出的技术可以使用在一个或多个电子设备(例如，终端站、网络元件等等)上存储并执行的代码和数据来实现。此类电子设备通过使用诸如非暂态计算机机器可读存储介质(例如，磁盘；光盘；随机存取存储器；只读存储器；闪存设备；相变存储器)之类的计算机机器可读介质和暂态计算机机器可读通信介质(例如，电、光、声或其它形式的传播信号——诸如载波、红外信号、数字信号等)来(内部地和/或通过网络与其他电子设备)存储和传递代码和数据。另外，这类电子设备一般包括与一个或多个其它组件耦合的一组一个或多个处理器，所述一个或多个其它组件例如是一个或多个存储设备(非暂态机器可读存储介质)、用户输入/输出设备(例如键盘、触摸屏和/或显示器)以及网络连接。该组处理器和其它组件的耦合一般是通过一个或多个总线和桥(也称总线控制器)实现的。存储设备和携带网络流量的信号分别表示一个或多个机器可读存储介质以及机器可读通信介质。因此，给定电子设备的存储设备通常存储代码和/或数据以供在该电子设备的一个或多个处理器上执行。当然，本发明的实施例的一个或多个部分可使用软件、固件和/或硬件的不同组合来实现。贯穿此详细描述，为解释起见，阐明了众多具体细节以提供对本发明的全面理解。然而，本领域技术人员应当领会，没有这些具体细节中的一些细节也可实践本发明。在某些实例中，并不详细描述众所周知的结构和功能以免模糊本发明的主题。因此，本发明的范围和精神应根据所附权利要求书来判断。

Claims

1.一种用于执行散列函数的方法，包括：

最初指定第一存储位置，用于存储用于计算所述散列函数的轮次的第一组状态值；

最初指定第二存储位置，用于存储也用于计算所述散列函数的轮次的第二组状态值；以及

使用所述第一组状态值和所述第二组状态值，执行多轮次的所述散列函数，其中执行包括交换所述第一存储位置和第二存储位置的所述指定，以便所述第一存储位置被指定为存储用于第一组轮次的所述第一组状态值和用于第二组轮次的所述第二组状态值，其中所述第二存储位置被指定为存储用于所述第一组轮次的所述第二组状态值和用于所述第二组轮次的所述第一组状态值。

2.如权利要求1所述的方法，其特征在于，所述第一组轮次包括偶数轮次，所述第二组轮次包括奇数轮次。

3.如权利要求2所述的方法，其特征在于，执行进一步包括：

使用现有的第一组和第二组状态值，在每一轮中计算新的第一组状态值；以及

将所述第二组状态值设置为等于所述现有的第一组状态值。

4.如权利要求3所述的方法，其特征在于，将所述第二组状态值设置为等于所述现有的第一组状态值的操作是借助于所述第一存储位置和所述第二存储位置的所述指定的所述交换自动地执行的。

5.如权利要求4所述的方法，其特征在于，所述第一存储位置和第二存储位置各自包括128位紧缩的寄存器。

6.如权利要求4所述的方法，其特征在于，所述第一存储位置和第二存储位置各自包括256位紧缩的寄存器。

7.如权利要求3所述的方法，其特征在于，所述散列函数包括安全消息SM3散列函数，其中所述第一组状态值包括所述SM3散列函数的变量A，C，E和G，所述第二组状态值包括所述SM3散列函数的变量B，D，F以及H。

8.如权利要求1所述的方法，其特征在于，所述第一和第二组的每一值都包括32位值。

9.如权利要求8所述的方法，其特征在于，所述第一组状态值包括四个32位值，所述第二组状态值包括另外的四个32位值。

10.一种用于执行散列函数的处理器，包括：

包括其中将存储散列函数的状态变量的包括第一存储位置和第二存储位置的寄存器组；

执行单元，用于执行所述散列函数，并最初指定所述第一存储位置，用于存储用于计算所述散列函数的轮次的第一组状态值，并最初指定第二存储位置，用于存储也用于计算所述散列函数的轮次的第二组状态值；以及

所述执行单元使用所述第一组状态值和所述第二组状态值，执行多轮次的所述散列函数，其中执行包括交换所述第一存储位置和第二存储位置的所述指定，以便所述第一存储位置被指定为存储用于第一组轮次的所述第一组状态值和用于第二组轮次的所述第二组状态值，其中所述第二存储位置被指定为存储用于所述第一组轮次的所述第二组状态值和用于所述第二组轮次的所述第一组状态值。

11.如权利要求10所述的处理器，其特征在于，所述第一组轮次包括偶数轮次，所述第二组轮次包括奇数轮次。

12.如权利要求11所述的处理器，其特征在于，执行进一步包括：

将所述第二组状态值设置为等于所述现有的第一组状态值。

13.如权利要求12所述的处理器，其特征在于，将所述第二组状态值设置为等于所述现有的第一组状态值的操作是借助于所述第一存储位置和所述第二存储位置的所述指定的所述交换自动地执行的。

14.如权利要求13所述的处理器，其特征在于，所述第一存储位置和第二存储位置各自包括128位紧缩的寄存器。

15.如权利要求13所述的处理器，其特征在于，所述第一存储位置和第二存储位置各自包括256位紧缩的寄存器。

16.如权利要求12所述的处理器，其特征在于，所述散列函数包括安全消息SM3散列函数，其中所述第一组状态值包括所述SM3散列函数的变量

A，C，E和G，所述第二组状态值包括所述SM3散列函数的变量B，D，F以及H。

17.如权利要求10所述的处理器，其特征在于，所述第一和第二组的每一值都包括32位值。

18.如权利要求17所述的处理器，其特征在于，所述第一组状态值包括四个32位值，所述第二组状态值包括另外的四个32位值。

19.一种用于执行散列函数的系统，包括：

存储器，用于存储指令和数据；

具有用于高速缓存所述指令和数据的多个高速缓存级别的高速缓存子系统；

用于通过网络可通信地耦合所述系统的网络接口；

用于从一个或多个外围设备接收命令的至少一个输入/输出单元；以及处理器，包括：

寄存器组，包括其中将存储散列函数的状态变量的第一存储位置和第二存储位置；

20.如权利要求19所述的系统，其特征在于，所述第一组轮次包括偶数轮次，所述第二组轮次包括奇数轮次。

21.如权利要求20所述的系统，其特征在于，执行进一步包括：

将所述第二组状态值设置为等于所述现有的第一组状态值。

22.如权利要求21所述的系统，其特征在于，将所述第二组状态值设置为等于所述现有的第一组状态值的操作是借助于所述第一存储位置和所述第二存储位置的所述指定的所述交换自动地执行的。

23.如权利要求22所述的系统，其特征在于，所述第一存储位置和第二存储位置各自包括128位紧缩的寄存器。

24.如权利要求22所述的系统，其特征在于，所述第一存储位置和第二存储位置各自包括256位紧缩的寄存器。

25.如权利要求21所述的系统，其特征在于，所述散列函数包括安全消息SM3散列函数，其中所述第一组状态值包括所述SM3散列函数的变量A，C，E和G，所述第二组状态值包括所述SM3散列函数的变量B，D，F以及H。

26.一种机器可读介质，包括存储于其上的多条指令，所述多条指令当被执行时使计算系统执行如权利要求1-9中的任一项所述的方法。

27.一种用于执行散列函数的设备，包括：

用于最初指定第一存储位置用于存储用于计算所述散列函数的轮次的第一组状态值的装置；

用于最初指定第二存储位置用于存储也用于计算所述散列函数的轮次的第二组状态值的装置；以及

用于使用所述第一组状态值和所述第二组状态值来执行多轮次的所述散列函数的装置，其中执行包括交换所述第一存储位置和第二存储位置的所述指定，以便所述第一存储位置被指定为存储用于第一组轮次的所述第一组状态值和用于第二组轮次的所述第二组状态值，其中所述第二存储位置被指定为存储用于所述第一组轮次的所述第二组状态值和用于所述第二组轮次的所述第一组状态值。

28.如权利要求27所述的设备，其特征在于，所述第一组轮次包括偶数轮次，所述第二组轮次包括奇数轮次。

29.如权利要求28所述的设备，其特征在于，用于执行的装置进一步包括：

用于使用现有的第一组和第二组状态值在每一轮中计算新的第一组状态值的装置；以及

用于将所述第二组状态值设置为等于所述现有的第一组状态值的装置。

30.如权利要求29所述的设备，其特征在于，将所述第二组状态值设置为等于所述现有的第一组状态值的操作是借助于所述第一存储位置和所述第二存储位置的所述指定的所述交换自动地执行的。

31.如权利要求30所述的设备，其特征在于，所述第一存储位置和第二存储位置各自包括128位紧缩的寄存器。

32.如权利要求30所述的设备，其特征在于，所述第一存储位置和第二存储位置各自包括256位紧缩的寄存器。

33.如权利要求29所述的设备，其特征在于，所述散列函数包括安全消息SM3散列函数，其中所述第一组状态值包括所述SM3散列函数的变量A，C，E和G，所述第二组状态值包括所述SM3散列函数的变量B，D，F以及H。

34.如权利要求27所述的设备，其特征在于，所述第一和第二组的每一值都包括32位值。

35.如权利要求34所述的设备，其特征在于，所述第一组状态值包括四个32位值，所述第二组状态值包括另外的四个32位值。