CN105306195A

CN105306195A - Sm4加速处理器、方法、系统和指令

Info

Publication number: CN105306195A
Application number: CN201510349232.2A
Authority: CN
Inventors: S·格伦; V·克拉斯诺夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-07-22
Filing date: 2015-06-19
Publication date: 2016-02-03
Also published as: US20190109703A1; US20190036683A1; US20170085370A1; US10469249B2; CN110233720A; US10476667B2; US20160026468A1; US20190109704A1; US10425222B2; TW201617960A; US20190109705A1; CN110233721A; US10447468B2; US10419210B2; CN110233720B; US10454669B2; US20190036684A1; DE102015008012A1; TWI567585B; US20180375642A1

Abstract

本申请公开了SM4加速处理器、方法、系统和指令。一个方面的处理器包括多个紧缩数据寄存器和用于解码指令的解码单元。该指令指示一个或多个源紧缩数据操作数。该一个或多个源紧缩数据操作数具有四个在先的SM4密码轮的四个32位的结果以及四个32位的值。该处理器也包括与解码单元和多个紧缩数据寄存器耦合的执行单元。该执行单元用于：响应于该指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在由该指令所指示的目的地存储位置中。

Description

SM4加速处理器、方法、系统和指令

技术领域

本文所述的多个实施例总体涉及处理器。具体地说，本文所述的多个实施例一般涉及在处理器中执行密码术。

背景技术

密码学是通常用于保护计算机系统和其他电子设备中的机密信息或秘密信息的技术。密码学一般涉及使用密码(cryptologic)算法和密码密钥来保护信息。例如，可执行加密(encryption)(有时也称为密码操作(cipher))，在加密中，使用加密密钥(例如，位串)对未经加密的或明文输入数据(例如，表示文本、数字、可理解字符等的位串)执行由密码算法所指定的一系列变换或操作，以便产生经加密的数据。有时也将该经加密的数据称为密文或密码数据。经加密的数据通常是不可理解的。在不知晓密码密钥的情况下，从经加密数据来确定未经加密的明文数据一般是不太可能的，或者至少并非实际可行的。如果知晓了密码密钥，则可对经加密的数据执行解密(decryption)(有时也称为逆向密码操作(inversecipher))以重新产生对应的明文或未经加密的数据。在解密期间执行的变换或操作基本上可以是加密期间所执行的那些变换或操作的逆转。

SM4是由中国政府批准在无线网络中使用的密码算法。SM4之前被称为SMS4。SM4密码算法是块密码操作算法。输入数据(也被称为状态)、输出数据和密码密钥各自是128位的。通过三十二轮执行对数据的加密。每一轮涉及用于将输入数据数据变换为经加密的数据的多个不同的操作或变换。将具有类似变换的三十二轮用于解密数据。也有用于密钥扩展的三十二轮，在其中生成用于不同的加密和解码轮的轮密钥。如果需要，SM4密码算法的进一步细节可在由SunMicrosystems公司的WhitfieldDiffie和索诺玛州立大学的GeorgeLedin翻译并排版的文档“SM4EncryptionAlgorithmforWirelessNetworks”(“用于无线网络的SM4加密算法”)(2008年5月15日，版本1.03)中得到。

一个挑战在于，实现SM4密码算法一般是趋于计算密集型的。结果SM4密码算法的软件实现一般容易性能不佳。该不佳的性能至少部分地由于需要执行的大量操作以及需要执行的相对应的大量指令。通常，每一个单轮可获取若干条到许多条指令。此外，回想一下，对于加密、解密和密钥扩展中的每一个都需要三十二轮。

附图说明

通过参考以下描述以及用于说明多个实施例的附图，可最佳地理解本发明。在附图中：

图1是包括一条或多条SM4加速指令的指令集的实施例的框图。

图2是可用于执行SM4加速指令的实施例的处理器实施例的框图。

图3是执行SM4加速指令的实施例的方法的实施例的流程框图。

图4是SM4四密码轮操作的实施例的框图。

图5是SM4四密钥扩展轮操作的实施例的框图。

图6是SM4执行单元的示例实施例的框图。

图7是SM4单轮执行逻辑的示例实施例的框图。

图8A是用于SM4四轮密码操作指令的指令格式和用于SM4四轮密钥扩展指令的指令格式的实施例的框图。

图8B是针对用于执行四轮的密码操作和四轮的密钥扩展两者的单条SM4加速指令的指令格式的实施例的框图。

图9A是示出有序流水线的实施例以及寄存器重命名的无序发布/执行流水线的实施例的框图。

图9B是处理器核的实施例的框图，该处理器核包括耦合到执行引擎单元的前端单元，并且前端单元和执行引擎单元两者都耦合到存储器单元。

图10A是单个处理器核以及它与管芯上互连网络的连接及其第二级(L2)高速缓存的本地子集的实施例的框图。

图10B是图10A的处理器核的部分的展开图的实施例的框图。

图11是可具有多于一个的核、可具有集成存储器控制器并且可具有集成图形器件的处理器的实施例的框图。

图12是计算机架构的第一实施例的框图。

图13是计算机架构的第二实施例的框图。

图14是计算机架构的第三实施例的框图。

图15是芯片上系统架构的实施例的框图。

图16是根据本发明的多个实施例的使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

本文中所公开的是SM4加速指令、用于执行这些指令的处理器、在处理或执行这些指令时由处理器执行的方法以及包含一个或多个用于处理或执行这些指令的系统。在以下描述中，阐述多个特定细节(例如，特定指令操作、数据格式、操作数之内的数据的安排、处理器配置、微架构细节、操作序列等)。然而，在没有这些特定细节的情况下，也可实施多个实施例。在其他实例中，未详细示出公知的电路、结构和技术，以避免使对本说明书的理解模糊。

图1是包括一条或多条SM4加速指令102的指令集100的框图。SM4加速指令可有助于加速SM4密码算法的实现。该指令集是处理器的指令集架构(ISA)的部分，并且包括处理器操作以执行的原生指令。该指令集中的指令表示提供给处理器以供执行的宏指令、汇编语言指令或机器层级指令。这些指令与通过对指令集中的多条指令进行解码而得到的微指令、微操作或其他指令形成对比。

在一些实施例中，该SM4加速指令102可包括SM4四密码操作轮指令104。在密码操作(例如，加密和解密)期间，SM4算法使用轮函数(F)。在方程1中示出该轮函数(F)：

X_i+4＝F(X_i,X_i+1,X_i+2,X_i+3,rk_i)方程1

＝X_iXORT(X_i+1XORX_i+2XORX_i+3XORrk_i)

符号“XOR”表示可对这些32位的值执行的按位的异或(XOR)操作。项X_i表示轮i的32位状态片(pieceofstate)，X_i+1表示轮(i+1)的32位状态片，以此类推。项rk_i表示轮i的32位轮密钥。最初，可将128位的输入块(例如，将加密的明文数据的128位)指定为四个32位元素(X₀,X₁,X₂,X₃)。可按照大字节存储顺序(bigendianorder)来安排这些元素。该轮函数(F)用于执行三十二轮(例如，用于i＝0、1、2、…、31)。具有代表性的是，在第一轮期间，可通过对F(X₀,X₁,X₂,X₃,rk₀)求值来确定32位的结果X₄。在三十二轮加密之后，(X₂₈,X₂₉,X₃₀,X₃₁)表示对应于128位的数据块(X₀,X₁,X₂,X₃)的128位的经加密数据。

注意，方程1具有函数T(x)。T(x)被称为混合-替换(mixer-substitution)函数。T(x)从32位的输入中生成32位的输出。如方程2中所示，混合-替换函数T(x)包括两个替换函数：

T(x)＝L(τ(x))方程2

函数τ(x)是“非线性替换”函数。函数L(B)是“线性替换”函数。

方程3表示非线性替换函数τ(x)的操作：

τ(x)＝(Sbox(a₀),Sbox(a₁),Sbox(a₂),Sbox(a₃))方程3

τ(x)将替换盒(S盒(Sbox))应用于32位的输入值x。可将该32位的值x逻辑地分割为四个8位的片段或字节a₀、a₁、a₂和a₃。可使a₀、a₁、a₂和a₃中的每一个通过S盒。该S盒可获取相关联的8位片段作为输入，对输入8位片段执行非线性替换以生成替代或替换的8位片段，并且输出替代或替换的8位片段。作为示例，可将该S盒实现为固定查找表。可使用该输入8位片段以便在该查找表中查找对应的输出8位片段。例如，该输入8位片段的一部分可选择行，该输入8位片段的另一部分可选择列，并且所选择的行和所选择的列可标识将用作输出字节的字节。可串接这四个输出8位片段以产生32位的值B。该32位的值B可表示四个经串接的8位片段(b₀,b₁,b₂,b₃)。通过方程4示出B和τ(x)之间的关系：

B＝(b₀,b₁,b₂,b₃)＝τ(x)方程4

如方程2中所示，可对非线性替换函数τ(x)的32位的结果B执行线性替换函数L(B)。在方程5中示出用于加密和/或解密的该线性替换函数L(B)：

L(B)＝BXOR(B<<<2)XOR(B<<<10)

XOR(B<<<18)XOR(B<<<24)方程5

符号“<<<i”表示将32位的值左循环或“循环偏移”i位。例如，B<<<18表示将B左循环18位。

在加密期间，可在三十二轮(例如，i＝0、1、…、31)中的每一轮期间执行方程1所表示的轮函数(F)(例如，包括混合-替换函数T(x)，其具有由方程3给出的非线性替换函数τ(x)和由方程5给出的线性替换函数L(B))。在这三十二轮之后，可将该明文的128位输入块(X₀,X₁,X₂,X₃)的经加密的值或密文值指定为(Y₀,Y₁,Y₂,Y₃)。(Y₀,Y₁,Y₂,Y₃)等于可被指定为(X₃₅,X₃₄,X₃₃,X₃₂)的(X₃₂,X₃₃,X₃₄,X₃₅)的逆向替换。

在解密期间，可通过使用由方程1所表示的相同的轮函数(F)(例如，包括混合-替换函数T(x)，其具有由方程3给出的非线性替换函数τ(x)和由方程5给出的线性替换函数L(B))对块解密，但是逆转使用轮密钥(rk_i)所遵照的顺序。也就是说，算法的加密和解密执行基本相同的操作，区别在于，逆转使用轮密钥所遵循的顺序。例如，用于加密的密钥顺序可以是首先为rk₀、然后是rk₁，…，并且最后是rk₃₁，而用于解密的密钥顺序可以是首先为rk₃₁，然后是rk₃₀，…，并且最后是rk₀。

在一些实施例中，SM4四密码操作轮指令可对全部或至少基本上全部的四密码操作(例如，加密或解密)轮求值来生成各自对应于不同的单个顺序的密码操作轮的四个单轮结果。例如，在一些实施例中，在这四轮中的每一轮期间，该SM4四密码操作轮指令可对全部或至少基本全部方程1-5求值。例如，在一些实施例中，在这四轮中的每一轮期间，该SM4四密码操作轮指令可对由方程1给出的四个XOR操作、由方程3给出的非线性替换函数τ(x)(例如，包括S盒查找表)、由方程5给出的线性替换函数L(B)的四个XOR和四个左循环中的全部或至少基本上全部求值。应当理解，尽管通过SM4四密码操作轮指令的界限之内的这些操作中的至少多数(即，多于50％)、至少大多数(即，多于80％)、基本全部(例如，至少95％)或全部，一般可改善性能，但是在一些实施例中，可以可选地在该SM4四密码操作轮指令的界限之外执行这些操作中的某些(例如，可在该指令之外执行一些XOR或循环操作，提供中间结果作为输入)。

再次参考图1，在一些实施例中，SM4加速指令102可包括可选的SM4四密钥扩展轮指令106，但这不是必需的。SM4算法的另一部分是密钥扩展或生成。在密钥扩展期间，生成作为对密码操作(例如，加密和/或解密)轮的输入(例如，对由方程1表示的F函数的输入)所需要的轮密钥或扩展密钥。

可通过算法所定义的128位加密密钥“MK”、128位的系统参数“FK”和三十二个密钥生成常数(CK₀,CK₁,…CK₃₁)来生成三十二个轮密钥(rk₀,rk₁,…rk₃₁)。可将128位的加密密钥MK表示为四个32位片段(MK₀,MK₁,MK₂,MK₃)。可将系统参数FK表示为四个32位系统参数片段(FK₀,FK₁,FK₂,FK₃)。按照十六进制计数法，这些系统参数片段可以是FK₀＝(a3b1bac6)，FK₁＝(56aa3350)，FK₂＝(677d9197)，并且FK₃＝(b27022dc)。最初，可根据方程6来计算四个32位的片段(K₀,K₁,K₂,K₃)。

(K₀,K₁,K₂,K₃)＝(MK₀XORFK₀,MK₁XORFK₁,方程6

MK₂XORFK₂,MK₃XORFK₃)

可根据由方程7所表示的密钥扩展轮函数(F’)来生成三十二个轮密钥(rk_i)。

rk_i＝K_i+4＝F’(K_i,K_i+1,K_i+2,K_i+3,CK_i)方程7

＝K_iXORT’(K_i+1XORK_i+2XORK_i+3XORCK_i)

可对方程7求值一次以生成一轮密钥扩展的单个结果(例如，轮密钥rk_i)。方程7的密钥扩展轮函数(F’)与方程1的密码操作轮函数(F)类似。一个例外在于，方程7的密钥扩展轮函数(F’)具有比方程1的密码操作轮函数(F)的混合-替换函数T(x)略有不同的混合-替换函数T’(x)。具体而言，密钥扩展混合-替换函数T’(x)使用与方程5的密码操作线性替换函数L(B)不同的密钥扩展线性替换函数L’(B)。在方程8中示出密钥扩展线性替换函数L’(B)：

L’(B)＝BXOR(B<<<13)XOR(B<<<23)方程8

如所能看到的那样，通过将方程5与方程8比较，与方程5的密码操作线性替换函数L(B)相比，密钥扩展线性替换函数L’(B)使用不同的循环量，少两个XOR操作，并且少两个循环操作。

在一些实施例中，SM4四密钥扩展轮指令可对全部或至少基本上全部的四个密钥扩展轮求值以生成各自对应于不同的单个顺序的密钥扩展轮的四个轮密钥或扩展密钥。例如，在一些实施例中，在这四轮中的每一轮期间，该SM4四密码操作轮指令可对方程7、2-4和8中的全部或至少基本上全部求值。例如，在一些实施例中，在这四轮中的每一轮期间，该SM4四密码操作轮指令可对由方程7给出的四个XOR操作中的全部或至少基本上全部求值，可对由方程3给出的非线性替换函数τ(x)(例如，包括S盒查找表)中的全部或至少基本上全部求值，并且可对由方程8给出的线性替换函数L’(B)的两个XOR和两个左循环中的全部或至少基本上全部求值。应当理解，尽管通过SM4四密钥扩展轮指令的界限之内的这些操作中的至少多数(即，多于50％)、至少大多数(即，多于80％)、基本全部(例如，至少95％)或全部，一般可改善性能，但是在一些实施例中，可以可选地在该SM4四密钥扩展轮指令的界限之外执行这些操作中的某些(例如，可在该指令之外执行一些XOR或循环操作，提供中间结果作为输入)。

图2是可用于执行SM4加速指令202的实施例的处理器210的实施例的框图。在一些实施例中，该处理器可以是通用处理器(例如，通常在台式计算机、膝上型计算机或其他计算机中所使用类型的中央处理单元(CPU)或其他通用处理器)。在一个方面，使用通用处理器的指令可有助于避免使用诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)之类的专用的密码专用硬件的需要，使用这些专用硬件将容易向实现方式增加成本、功耗和/或尺寸。或者，该处理器可以是专用处理器。合适的专用处理器的示例可包括但不限于，密码处理器、密码协处理器、通信处理器、网络处理器、图形处理器、协处理器、嵌入式处理器、数字信号处理器(DSP)，等等。该处理器可以是各种复杂指令集计算(CISC)处理器、各种精简指令集计算(RISC)处理器、各种超长指令字(VLIW)处理器中的任何处理器，可以是上述各项的各种混合，可具有不同指令集(例如，在不同的核中)的组合，或者可以是其他类型的处理器。

在操作期间，处理器210可接收SM4加速指令202。在一些实施例中，该SM4加速指令可以是SM4四密码操作轮指令(例如，指令104)，或者在其他实施例中，可以是SM4四密钥扩展轮指令(例如，指令106)。可从指令取出单元、指令队列等接收该SM4加速指令。该SM4加速指令可表示处理器的指令集的宏指令、汇编语言指令、机器代码指令或其他指令或控制信号。

在一些实施例中，该SM4加速指令可显式地指定(例如，通过一个或多个字段或一组位)或以其他方式指示(例如，隐式地指示)一个或多个源紧缩数据操作数118、122。在一些实施例中，该一个或多个源紧缩数据操作数可具有四个在先(prior)的SM4密码操作轮或密钥扩展轮(例如，i、i+1、i+2、i+3)的四个32位的结果220(例如，W_i、W_i+1、W_i+2、W_i+3)。如本文中所使用的那样，本文中使用记号W(例如，W_i、W_i+1等)来一般地表示密码操作轮的32位结果(例如，X_i、X_i+1等)或密钥扩展轮的32位结果(例如，K_i、K_i+1等)。作为示例，在加密的情况下，这四个32位的结果220可表示在四个在先紧接的轮(例如，i、i+1、i+2和i+3)中对由方程1所表达的轮函数(F)的四次之前的求值的四个结果(例如，X_i、X_i+1、X_i+2和X_i+3)。这四个结果可表示经加密或解密的中间状态。或者，在密钥扩展的情况下，这四个32位的结果220可表示在四个在先紧接的轮(例如，i、i+1、i+2和i+3)中对由方程7所表达的轮函数(F’)的四次之前的求值的四个结果(例如，K_i、K_i+1、K_i+2和K_i+3)。这些(除了最初的四个片段(即，K₀、K₁、K₂和K₃))可表示四个在先的轮密钥。回想一下，密钥扩展轮函数(F’)使用与密码操作轮函数(F)所使用的密码操作线性函数L(x)略有不同的密钥扩展线性替换函数L’(x)。

再次参照图2，该一个或多个源操作数118、122也可具有四个32位的值224。在密码操作的情况下，这四个32位的值224可表示用于四个在先轮的四个32位的轮密钥(例如，rK_i、rK_i+1、rK_i+2和rK_i+3)。可将这四个轮密钥用作对由方程1所表达的密码操作轮函数(F)的四次顺序求值的输入。或者，在密钥扩展的情况下，这四个32位的值可表示四个32位的密钥生成常数(例如，CK_i、CK_i+1、CK_i+2、CK_i+3)。回想一下，该SM4算法定义了用于密钥扩展的三十二个密钥生成常数CK₀-CK₃₁。可将这四个密钥生成常数用作对由方程7所表达的密钥生成轮函数(F’)的四次顺序求值的输入。

如所示出的那样，在一些实施例中，可以可选地将四个在先SM4轮的四个32位的结果220存储在第一源紧缩数据操作数218中，但是这不是必需的。如进一步所示出的那样，在一些实施例中，可以任选地将四个32位的值224(例如，用于四个在先轮或的四个32位的轮密钥或四个32位的密钥生成常数)存储在第二源紧缩数据操作数222中，但是这不是必需的。从整体的算法角度来看，将所有这些相同类型的数据元素存储在相同的紧缩数据操作数中可易于提供某些效率或优势。例如，这可有助于从算法的一轮到下一轮促进对这些数据元素的高效管理，并且/或者可有助于减少紧缩(packing)和/或去紧缩(unpacking)或类似的数据重安排操作的数量。或者，在其他实施例中，可在一个或多个源操作数内，以各种方式重新安排四个32位的结果220和四个32位的值224。例如，可在两个128位的源紧缩数据操作数中，以各种方式提供并重新安排全部这八个32位的值(例如，第一和第二源紧缩数据操作数218、222中的每一个可包括在先轮的32位的结果220和32位的值224的混合)。作为另一示例，可使用单个的256位源紧缩数据操作数(未示出)来提供全部这八个32位的值。在另一些示例中，可以可选地使用存储器位置、通用寄存器或其他存储位置来提供这些数据元素中的一个或多个。虽然对于某些安排存在某些效率或优势，但是只要以经由一个或多个源操作数的某种方式来提供这八个32位的值，各种不同的重新安排就是可能的。在一些实施例中，第一和第二源紧缩数据操作数218、222可以可选地包括针对图4-5中任意一个所示或所述的信息，但是本发明的范围并不如此受限。

再次参考图2，该处理器包括解码单元或解码器212。解码单元可接收并解码SM4加速指令。该解码单元可输出反映、表示SM4加速指令和/或从该SM4加速指令导出的一个或多个微指令、微操作、微代码进入点、经解码的指令或控制信号、或者其它相对较低层级的指令或控制信号。这一个或多个较低层级的指令或控制信号可通过一个或多个较低层级(例如，电路级或硬件级)操作来实现相对较高层级的SM4加速指令。在一些实施例中，解码单元可包括：一个或多个输入结构(例如，端口、互连、接口)，用于接收指令；指令识别和解码逻辑，与输入结构耦合，并且用于识别指令并将其解码为一个或多个对应的较低层级的指令或控制信号；以及一个或多个输出结构(例如，端口、互连、接口)，与识别和解码逻辑耦合，并且用于输出一个或多个对应的较低层级的指令或控制信号。可使用各种不同机制来实现该识别逻辑和解码逻辑，这些不同的机制包括但不限于，本领域中已知的用于实现解码单元的微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)和其他机制。

处理器210也包括紧缩数据寄存器的集合216。这些紧缩数据寄存器中的每一个可表示用于存储紧缩数据、向量数据或SIMD数据的管芯上存储位置。紧缩数据寄存器可以表示架构可见的寄存器(例如，架构寄存器组)。架构可见或架构寄存器对软件和/或编程者可见，并且/或者是由处理器的指令集中的指令指示以便标识操作数的寄存器。在一些实施例中，可以可选地将第一源紧缩数据操作数218和/或四个在先紧接的轮的四个32位的结果220存储在第一紧缩数据寄存器中。在一些实施例中，可以可选地将第二源紧缩数据操作数222和/或四个32位的值224(例如，四个32位的轮密钥)存储在第二紧缩数据寄存器中。或者，可以可选地使用存储器位置或其他存储位置。可使用公知技术，在不同的微架构中，以不同方式实现这些紧缩数据寄存器，并且它们不限于任何特定类型的电路。合适类型的寄存器的示例包括但不限于，专用物理寄存器、使用寄存器重命名的动态分配的物理寄存器以及它们的组合。

再次参考图2，SM4执行单元214与解码单元212和紧缩数据寄存器216耦合。为简化起见，可在本文中将SM4执行单元简称为执行单元。该执行单元可接收表示SM4加速指令202和/或从该SM4加速指令202导出的一个或多个经解码或以其他方式转换的指令或控制信号。该执行单元也可接收四个在先SM4轮的四个32位的结果220和四个32位的值224(例如，四个32位的轮密钥)。响应于SM4加速指令和/或作为该SM4加速指令的结果(例如，响应于从该指令解码出的一个或多个指令或控制信号)，该执行单元可用于存储结果紧缩数据226，该结果紧缩数据包括四个后续紧跟的顺序的SM4轮的四个32位的结果228。这四个后续紧跟的顺序轮可紧跟着对应于四个输入32位值220的四轮，并且相对于彼此可以是顺序的或连续的。在密码操作的情况下，这四个32位的结果228可表示对由方程1所表达的密码操作轮函数(F)的四次顺序的求值(例如，当X_i、X_i+1、X_i+2和X_i+3驻留在第一源紧缩数据操作数218中时，可生成四个结果X_i+4、X_i+5、X_i+6和X_i+7)。或者，在密钥扩展的情况下，这四个32位的结果228可表示对由方程7所表达的密钥扩展轮函数(F’)的四次顺序的求值(例如，当K_i、K_i+1、K_i+2、K_i+3驻留在第一源紧缩数据操作数218中时，可生成四个结果rK_i、rK_i+1、rK_i+2和rK_i+3)。在一些实施例中，该执行单元可存储可包括针对图4-5所示或所述的那些结果或本文中所述的其他结果中的任何结果的结果，但是本发明的范围并不如此受限。

在一些实施例中，可将结果紧缩数据226存储在可由指令显式地指定或以其他方式指示(例如，隐式地指示)的目的地存储位置中。作为示例，该目的地存储位置可以是紧缩数据寄存器、存储器位置、通用寄存器或其他存储位置。在一些实施例中，该目的地存储位置可以可选地是与用于源操作数的相同的存储位置(例如，紧缩数据寄存器)，但是这不是必需的。例如，该指令可隐式地指示，也可隐式地将为源紧缩数据操作数(例如，第一源紧缩数据操作数218)所指定的存储位置用作目的地存储位置。该结果紧缩数据226可覆写最初被存储在该存储位置中的源紧缩数据(例如，第一源紧缩数据操作数218)。或者，可以可选地将不同的存储位置用于源和结果紧缩数据操作数。

该SM4执行单元和/或处理器可包括用于响应于SM4加速指令(例如，响应于从该SM4加速指令解码出的一个或多个指令或控制信号)而执行该SM4加速指令和/或存储结果的具体的或特定的密码电路或其他逻辑(例如，潜在地与固件(例如，存储在非易失性存储器中的指令)和/或软件组合的晶体管、集成电路或其他硬件)。在一些实施例中，该执行单元可包括针对图6-7中任何一个所示或所述的和/或能够执行方程1-7中任何一个的密码硬件、电路或其他逻辑中的任何一个。

有利的是，该SM4加速指令202可有助于显著地增加实现SM4算法的速度、效率和/或性能。这可能部分是由于用单条指令和响应于其的处理器的逻辑替换了原本将由涉及相对大量的指令的常规软件方法所提供的高指令计数和复杂性。

为避免使描述模糊，已示出并描述了简化的处理器210。该处理器可以可选地包括针对本文中别处所示和/或所述的其他组件中的任何组件。可将多个实施例包括在具有多个核、逻辑处理器或执行单元(其中的至少一个能够执行SM4加速指令的实施例)的处理器中。

图3是执行SM4加速指令的实施例的方法330的实施例的流程框图。在各种实施例中，可由处理器、指令处理装置或其他数字逻辑设备来执行该方法。在一些实施例中，可由图2的处理器和/或可在图2的处理器之内执行图3的操作和/或方法。在本文中针对图2的处理器所描述的组件、特征和特定的可选细节也可选地适用于图3的操作和/或方法。或者，可由类似或不同的处理器或装置和/或在类似或不同的处理器或装置内执行图3的操作和/或方法。此外，图2的处理器可执行与图3的操作和/或方法相同、类似或不同的操作和/或方法。

该方法包括，在框331处，接收SM4加速指令。在各个方面，可在处理器处接收来自管芯外的源(例如，来自存储器、互连等)的指令，或者在处理器的部分处接收来自管芯上的源(例如，来自指令高速缓存、指令队列等)指令。该SM4加速指令可指定或其他方式指示一个或多个源紧缩数据操作数。一个或多个源紧缩数据操作数可具有四个在先SM4轮(例如，i、i+1、i+2、i+3)的四个32位的结果(例如，W_i、W_i+1、W_i+2、W_i+3)以及四个32位的值(例如，在密码操作的情况下的四个32位的轮密钥rK_i、rK_i+1、rK_i+2、rK_i+3；或者在密钥扩展情况下的四个密钥生成常数CK_i、CK_i+1、CK_i+2、CK_i+3)。

在框332处，可响应于该指令，将四个后续紧跟的顺序的SM4轮的四个32位的结果存储在目的地存储位置中。这四个后续紧跟的顺序的轮可紧跟对应于在源紧缩数据操作数中所提供的四个在先的SM4轮的四个32位结果(例如，W_i、W_i+1、W_i+2、W_i+3)的四轮，并且可以相对于彼此是顺序的或连续的。这些顺序的SM4轮紧跟对应于该源操作数的四个在先SM4轮。可由指令显式地指定或以其他方式指示(例如，隐式地指示)该目的地存储位置。具有代表性的是，执行单元、指令处理装置或处理器可执行该指令并存储该结果。在一些实施例中，源和/或结果可以是针对图4-5中的任意一个所示或所述的那些或者是本文中别处所述的其他结果中的任何一个。

所示的方法涉及架构操作(例如，那些从软件角度可见的操作)。在其他实施例中，该方法可以可选地包括一个或多个微架构操作。作为示例，可取出、解码指令，可访问源操作数，执行单元可执行多个微架构操作以实现该指令，等等。在一些实施例中，该方法可以可选地包括：对(用于密码操作的)(F)函数求值；对(用于密钥扩展的)(F’)函数求值；执行S盒查找；执行XOR操作；执行循环操作，等等。在一些实施例中，该方法可以可选地包括针对图4-7或方程8中的任何一个所示或所述的多个操作中的任何操作。

图4是示出可响应于SM4四密码操作轮指令而执行的SM4四密码轮操作430的实施例的框图。在一个方面，该四密码操作轮可以是加密轮。在另一方面，该四密码操作轮可以是解密轮。在一些实施例中，可将相同的指令用于加密和解密两者，主要的区别在于，在加密和解密之间，使用多个轮密钥所遵循的顺序被逆转。为了逆转这些密钥，要么可按逆序存储这些密钥，要么可对“进行中的”(“onthefly”)相同密钥调度使用混洗(shuffle)或置换(permute)型指令以逆转顺序。

该指令可指定或以其他方式指示第一源紧缩数据操作数418，并且可指定或以其他方式指示第二源紧缩数据操作数422。在各种实施例中，可将这些源紧缩数据操作数存储在紧缩数据寄存器、存储器位置或其他存储位置中。在一些实施例中，该指令可将仅这两个源操作数指示为源操作数。或者，可使用更少或更多的源操作数来提供相同的数据(例如，一个256位寄存器、四个64位寄存器等)。在所示实施例中，该第一和第二源紧缩数据操作数中的每一个是具有四个32位的数据元素的128位的操作数。在对SM4算法的描述中，将这些32位的数据元素称作“字”。

在所示实施例中，该第一源紧缩数据操作数418可选地具有被标记为X_i、X_i+1、X_i+2和X_i+3的、四个在先SM4加密或解密轮的四个32位的结果。从整体的算法角度看，将四个在先SM4加密或解密轮的全部四个32位的结果包括在相同的源紧缩数据操作数中可提供某些效率和/或优势(例如，通过减少准备用于后续轮的数据所需的数据操纵操作的数量)，但这不是必需的。在其他实施例中，可在两个或更多源操作数中提供这四个32位的结果，可在第二源紧缩数据操作数422中将它们与多个轮密钥混合，或能以其他方式提供它们。

如所示出的那样，在一些实施例中，可以可选地根据轮顺序(例如，根据升序或降序的轮顺序)来安排四个在先的SM4加密或解密轮的这四个32位的结果。例如，在图示中，将在先第四个SM4轮的第一32位结果(X_i)存储在位[31:0]中；将在先第三个SM4轮的第二32位结果(X_i+1)存储在位[63:32]中；将在先第二SM4轮的第三32位结果(X_i+2)存储在位[95:64]中，并且将在先紧接的SM4轮的第四32位结果(X_i+3)存储在位[127:96]中。在该实施例中，伴随着减小的位有效值，轮结果的年龄增加(例如，相比较年轻轮的结果，将较老的轮的结果存储在更低阶的位位置处)。在替代实施例中，也可以可选地使用逆序。从整体的算法角度看，存储根据轮顺序所安排的结果可易于提供某些效率或优势(例如，通过减少准备用于后续轮的数据所需的数据操纵操作的数量)，但这不是必需的。在另一实施例中，可以不一定按照轮顺序而以各种其他安排来存储多个元素。

在所示实施例中，第二源紧缩数据操作数422可选地具有被标记为rK_i、rK_i+1、rK_i+2和rK_i+3的、四个在先的SM4加密或解密轮的四个32位的轮密钥。从整体的算法角度看，将全部四个轮密钥包括在相同的源紧缩数据操作数中可提供某些效率和/或优势，但这不是必需的。在其他实施例中，可在两个或更多源操作数中提供这四个轮密钥，可在相同的源紧缩数据中将它们与在先的SM4密码操作轮的结果混合，或能以其他方式提供它们。

如所示出的那样，在一些实施例中，可以可选地根据轮顺序(例如，根据升序或降序的轮顺序)来安排这四个轮密钥。例如，在图示中，将在先第四个SM4轮的第一32位轮密钥(rK_i)存储在位[31:0]中；将在先第三个SM4轮的第二32位轮密钥(rK_i+1)存储在位[63:32]中；将在先第二SM4轮的第三32位轮密钥(rK_i+2)存储在位[95:64]中，并且将在先紧接的SM4轮的第四32位轮密钥(rK_i+3)存储在位[127:96]中。在该实施例中，伴随着操作数或寄存器中减少的位有效值，针对轮密钥的轮的年龄增加(例如，rK_i用于比rK_i+1所针对的更老的轮)。在替代实施例中，也可以可选地使用逆序。从整体的算法角度看，存储根据轮顺序所安排的轮密钥可易于提供某些效率或优势，但这不是必需的。在另一实施例中，可以不一定根据轮顺序而以各种其他安排来存储多个元素。

再次参考图4，可响应于该指令/操作来生成结果紧缩数据426，并将其存储在目的地存储位置中。在一些实施例中，该结果紧缩数据可包括被标记为X_i+4、X_i+5、X_i+6、X_i+7的、四个后续紧跟的顺序的加密或解密轮的四个32位的结果。这四个后续紧接着的顺序的轮可紧跟着对应于输入数据元素X_i、X_i+1、X_i+2和X_i+3的四轮，并且可以是相对于彼此的顺序轮或连续轮。从整体的算法角度看，将全部这四个32位的结果包括在相同的结果紧缩数据中可提供某些效率和/或优势，但这不是必需的。在其他实施例中，可在两个或更多结果紧缩数据操作数中提供这四个32位的结果。

在一些实施例中，可以可选地根据轮顺序(例如，根据升序或降序的轮顺序)来安排这四个32位的结果。如所示出的那样，在一些实施例中，可将第四新的SM4密码操作轮的第一32位结果(X_i+4)存储在位[31:0]中；可将第三新的SM4密码操作轮的第二32位结果(X_i+5)存储在位[63:32]中；可将第二新的SM4密码操作轮的第三32位结果(X_i+6)存储在位[95:64]中，并且可将最新的SM4密码操作轮的第四32位结果(X_i+7)存储在位[127:96]中。此外，在一些实施例中，可以可选地根据与输入源数据元素(例如，X_i、X_i+1、X_i+2、X_i+3和/或rK_i、rK_i+1、rK_i+2、rK_i+3)相同的轮顺序来安排这四个32位的结果(即，X_i+4、X_i+5、X_i+6、X_i+7)。从整体的算法角度看，根据轮顺序来安排这四个32位的结果和/或根据与源/输入数据相同的轮顺序来安排它们可易于提供某些效率或优势，但这不是必须的。

图5是示出可响应于SM4四密钥扩展轮指令而执行的SM4四密钥扩展轮操作530的实施例的框图。针对图4的四个密码轮操作所提及的在先所描述的特性、细节、变型和替代也可以可选地适用于图5的四密钥扩展轮操作，除非另外声明或以其他方式使之显而易见。

该指令可指定或以其他方式指示第一源紧缩数据操作数518，并且可指定或以其他方式指示第二源紧缩数据操作数522。在各种实施例中，可将这些源操作数存储在紧缩数据寄存器、存储器位置或其他存储位置中。在一些实施例中，该指令可将仅这两个源操作数指示为源操作数。或者，可使用更少或更多的源操作数来提供相关数据。在所示实施例中，该第一和第二源紧缩数据操作数518、522中的每一个是具有四个32位的数据元素或“字”的128位的操作数。

在所示实施例中，该第一源紧缩数据操作数518可选地具有被标记为K_i、K_i+1、K_i+2和K_i+3的、四个在先SM4密钥扩展轮的四个32位的结果。例如，在图示中，将第四在先SM4密钥扩展轮的第一32位结果(K_i)存储在位[31:0]中；将第三在先SM4密钥扩展轮的第二32位结果(K_i+1)存储在位[63:32]中；将第二在先SM4密钥扩展轮的第三32位结果(K_i+2)存储在位[95:64]中，并且将紧接的在先SM4密钥扩展轮的第四32位结果(K_i+3)存储在位[127:96]中。这些32位的结果可各自表示在先轮的轮密钥，除了前四个所谓的片段(即，K₀、K₁、K₂、K₃)。

该第二源紧缩数据操作数522可选地具有被标记为CK_i、CK_i+1、CK_i+2、CK_i+3的四个32位的密钥生成常数。回想一下，该SM4算法定义三十二个预定义的密钥生成常数CK₀-CK₃₁，它们用于对由方程7所表示的密钥扩展轮函数(F’)的输入。在图示中，将第四在先SM4密钥扩展轮的第一32位密钥生成常数(CK_i)存储在位[31:0]中；将第三在先SM4密钥扩展轮的第二32位密钥生成常数(CK_i+1)存储在位[63:32]中；将第二在先SM4密钥扩展轮的第三32位密钥生成常数(CK_i+2)存储在位[95:64]中，并且将紧接的在先SM4密钥扩展轮的第四32位密钥生成常数(CK_i+3)存储在位[127:96]中。

可响应于该指令/操作来生成结果紧缩数据526，并将其存储在目的地存储位置中。在一些实施例中，该结果紧缩数据可包括被标记为K_i+4、K_i+5、K_i+6、K_i+7的、四个后续紧跟的顺序的密钥扩展轮的四个32位的结果。这四个后续紧接着的顺序轮可紧跟着对应于输入数据元素(即，K_i、K_i+1、K_i+2和K_i+3)的四轮，并且可以是相对于彼此的顺序轮或连续轮。如所示出的那样，在一些实施例中，可将第四最新近的SM4密钥扩展轮的第一32位结果(K_i+4)存储在位[31:0]中；可将第三最新近的SM4密钥扩展轮的第二32位结果(K_i+5)存储在位[63:32]中；可将第二最新近的SM4密钥扩展轮的第三32位结果(K_i+6)存储在位[95:64]中，并且可将最新近的SM4密钥扩展轮的第四32位结果(K_i+7)存储在位[127:96]中。

注意，在所示实施例中，四个在先的SM4密钥扩展轮的全部四个32位结果(即，K_i、K_i+1、K_i+2,和K_i+3)都在同一个源紧缩数据518中，全部四个32位的密钥生成常数(即，CK_i、CK_i+1、CK_i+2,和CK_i+3)都在同一个源紧缩数据522中，并且四个后续紧跟的顺序的密钥扩展轮的全部四个32位的结果(即K_i+4、K_i+5、K_i+6、K_i+7)在同一个结果紧缩数据526中。如先前所述，从整体的算法角度看，将相似类型的数据元素包括在相同的操作数中可易于提供某些效率和/或优势，但这不是必需的。此外，注意，在所示实施例中，根据轮顺序来安排四个在先的SM4密钥扩展轮的四个32位结果(即，K_i、K_i+1、K_i+2,和K_i+3)，根据相同的轮顺序来安排四个32位的密钥生成常数(即，CK_i、CK_i+1、CK_i+2、CK_i+3)，并且也按相同的轮顺序来安排四个后续紧跟的顺序的密钥扩展轮的四个32位的结果(即，K_i+4、K_i+5、K_i+6、K_i+7)。如前所述，从整体的算法角度看，安排相似类型的数据元素的轮顺序，尤其是根据相同的轮顺序来安排不同类型的数据元素中的每一个可易于提供某些效率和/或优势，但这不是必需的。在其他实施例中，可在一个或多个紧缩数据操作数之间以各种方式安排这些各种不同类型的数据元素中的一些或全部，而不一定将相似类型的数据元素保持在同一个操作数中，并且不一定根据轮顺序，操作数间和操作数内的重新安排两者都是可能的，并且构想这两者。

以下列出用于执行SM4加密的四轮的代码的一个示例实施例。在该代码中，rdi表示指向密文结果将存储于其中的16字节的指针，rsi表示指向明文输入数据的16字节的指针，而rdx表示指向包括轮密钥的输入密钥调度的指针。SMS4RNDS4是赋予SM4四加密轮指令的名称。xmm0和xmm1表示128位紧缩数据寄存器。

图6是SM4执行单元614的示例实施例的框图。在一些实施例中，该SM4执行单元可能能够进行SM4密码操作和密钥扩展中的至少一个。在其他实施例中，该SM4执行单元可能能够进行SM4密码操作和密钥扩展两者。该SM4执行单元与第一源紧缩数据618和第二源紧缩数据622耦合。在该示例中，第一源紧缩数据具有四个紧接的在先轮的四个结果(W_i，W_i+1，W_i+2，W_i+3)。在该示例中，第二源紧缩数据具有四个紧接的在先轮的四个值(K_i，K_i+1，K_i+2，K_i+3)。在密码操作的情况下，这些可以是四个轮密钥(例如，rK_i、rK_i+1、rK_i+2、rK_i+3)。在密钥扩展的情况下，这些可以是四个预先确定的密钥生成常数(例如，CK_i、CK_i+1、CK_i+2、CK_i+3)。

可将四个紧接的在先轮的四个结果(W_i，W_i+1，W_i+2，W_i+3)和四个在先紧接的轮的四个值(K_i，K_i+1，K_i+2，K_i+3)提供给SM4单轮执行逻辑640。逻辑640可用于执行单个的SM4轮(例如，单个的SM4密码操作轮和/或单个的SM4密钥扩展轮)。该逻辑640可对轮函数(例如，方程1的密码操作轮函数或方程7的密钥扩展轮函数)求值以生成当前轮的结果(W_i+4)。可将结果(W_i+4)存储在W_i+4缓冲器642中，并且可在W_i+4环路643上，将结果(W_i+4)从该逻辑640的输出提供给其输入。

可使用该结果(W_i+4)和来自三个紧接的在前轮的结果(即，W_i+3、W_i+2、W_i+1)以及值K_i+1再次对轮函数求值以生成结果(W_i+5)。可将结果(W_i+5)存储在W_i+5缓冲器644中，并且可在W_i+5环路645上，将该结果(W_i+5)从该逻辑640的输出提供给其输入。可使用该结果(W_i+5)和来自三个紧接的在前轮的结果(即，W_i+4、W_i+3、W_i+2)以及值K_i+2再次对轮函数求值以生成结果(W_i+6)。可将结果(W_i+6)存储在W_i+6缓冲器646中，并且可在W_i+6环路647上，将该结果(W_i+6)从该逻辑640的输出提供给其输入。可使用该结果(W_i+6)和来自三个紧接的在前轮的结果(即，W_i+5、W_i+4、W_i+3)以及值K_i+3再次对轮函数求值以生成结果(W_i+7)。然后，该SM4执行单元可将四个结果W_i+4、W_i+5、W_i+6和W_i+7存储在结果紧缩数据626中。

这仅是合适的执行单元的一个示例。尽管该逻辑640可替代地保持这些值的副本而不是输出它们并输入它们，但是为了便于描述，已示出并描述了环路643、645、647。此外，如本文中别处所述，对源和结果数据元素的所示安排不是必需的。

图7是SM4单轮执行逻辑740的示例实施例的框图。该逻辑740是图6的逻辑640的一个合适的示例实施例。尽管在其他实施例中，SM4执行单元可能能够进行SM4密码操作和SM4密钥扩展中的仅一个(例如，仅SM4密码操作)，但是在所示实施例中，该逻辑740能够进行SM4密码操作和SM4密钥扩展两者。

该逻辑740包括第一XOR逻辑750。在一些实施例中，该第一XOR逻辑可获取W_i+1、W_i+2、W_i+3以及rk_i(用于密码操作)或CK_i(用于密钥扩展)作为输入，并且可生成或输出等于W_i+1XORW_i+2XORW_i+3XORrk_i(用于密码操作)或W_i+1XORW_i+2XORW_i+3XORCK_i(用于密钥扩展)的值。

该SM4单轮执行逻辑也包括混合-替换函数实现逻辑752。在一些实施例中，该逻辑752可能能够实现密码操作的混合-替换函数T(x)和/或密钥扩展的混合-替换函数T’(x)。该逻辑752包括非线性替换函数τ(x)实现逻辑754。非线性替换函数实现逻辑754的输入与第一XOR逻辑750的输出耦合。在一些实施例中，该非线性替换函数可包括替换盒(S盒)实现逻辑(例如，用于执行一个或多个S盒查找或其他非线性字节替换操作)。作为示例，这可包括硬件查找表(例如，一系列多输入单输出多路复用器，其基于从输入字节导出的输入选择信号，选择多个输入中的一个)。

该混合-替换函数实现逻辑752也包括密码操作的线性替换函数L(B)实现逻辑756和/或密钥扩展的线性替换函数L’(B)实现逻辑758。在所示实施例中，该逻辑752包括该L(B)实现逻辑756和L’(B)实现逻辑758两者。在其他实施例中，该逻辑752可包括仅一者而非两者(例如，仅逻辑756)。具有代表性的是，这些非线性替换函数中的每一个可包括XOR逻辑760、761和左循环逻辑762、763。

该SM4单轮执行逻辑也包括第二XOR逻辑764。该第二XOR逻辑的输入与混合-替换函数实现逻辑752的输出耦合。在所示实施例中，该第二XOR逻辑可接收来自逻辑756的求值T(x)(例如，用于密码操作)和/或可接收来自逻辑758的求值T’(x)(例如，用于密钥扩展)。在一些实施例中，该第二XOR逻辑可生成并输出等于W_iXORT(x)(例如，用于密码操作)或W_iXORT’(x)(例如，用于密钥扩展)的值以生成当前轮的32位结果(W_i+4)。

图8A是用于SM4四轮密码操作指令的指令格式870和用于SM4四轮密钥扩展指令的指令格式872的示例实施例的框图。指令格式870具有第一操作码(或opcode)871，其用于标识将执行的指令和/或操作的类型是SM4四轮密码操作的类型。类似地，指令格式872具有第二不同的操作码(或opcode)873，其用于标识将执行的指令和/或操作的类型是SM4四轮密钥扩展的类型。这些操作码可表示多个位或者一个或多个字段。在所示示例中，这些指令格式中的每一个也包括第一源指定符874-1、874-2、第二源指定符876-1、876-2以及可选的目的地指定符878-1、878-2，但是本发明的范围并不限于此。作为示例，这些指定符中的每一个可包括多个位或者一个或多个字段以指定寄存器的地址、存储器位置或者其他存储位置。

图8B是针对用于执行密码操作和密钥扩展两者的单条SM4加速指令的指令格式880的示例实施例的框图。该指令格式881具有第一操作码(或opcode)881，其用于标识将执行的指令和/或操作的类型是SM4四轮密码操作或SM4四轮密钥扩展的类型。该指令格式也具有密码操作或密钥扩展选择符字段882以选择将执行密码操作(例如，加密或解密)还是密钥扩展。该选择符字段可包括一个或多个非操作码位。作为一个示例，可以可选地由立即数(例如，8位、4位或2位的立即数)来提供该选择符字段。可使用该选择符字段来选择将使用L(x)线性替换函数还是L’(x)线性替换函数。在所示示例中，该格式也包括第一源指定符874、第二源指定符876以及可选的目的地指定符878，但是本发明的范围并不如此受限。作为示例，这些指定符中的每一个可包括多个位或者一个或多个字段以指定寄存器的地址、存储器位置或者其他存储位置。

图8A-8B的格式仅是说明性示例。在其他实施例中，第一源指定符、第二源指定符和目的地指定符中的一个或多个(即，多个显式指定符中的一个)可以可选地是隐式的(例如，对指令或操作码隐含)，而不是被显式地指定。例如，在一些实施例中，替代显式的目的地指定符，可以可选地将由第一和第二源指定符中的一个所指定的相同的存储位置隐式地或隐含地用作目的地存储位置。此外，替代实施例可具有更少或更多的源(例如，单个256位的源、四个64位的源，等等)。另外，所示的这些字段的顺序/安排不是必需的，相反，可重新安排、重叠这些字段；字段不需要包括连续的位序列，相反，字段可由非连续的位或分开的位组成，等等。

在此所述的指令和处理器旨在实现SM4密码算法并获取与SM4密码算法一致的值。描述中将导致与SM4算法不一致的结果的任何可能的不符或不一致(例如，由于印刷错误或其他情况)不是有意的，并且是错误的。此外，虽然已描述了SM4算法的当前版本，但是应当理解，多个实施例也适用于满足权利要求的限制的该标准的扩展、该标准的衍生、该标准的修改、相关标准等。该SM4标准指的是本文中所描述的该已知标准，不管其被称为SM4、SMS4还是某个其他名称。

示例性核架构、处理器和计算机架构

处理器核可以用出于不同目的的不同方式在不同的处理器中实现。例如，此类核的实现可包括：1)旨在用于通用计算的通用有序核；2)旨在用于通用计算的高性能通用无序核；3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括：1)包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用无序核的CPU；以及2)包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核的协处理器。此类不同处理器导致不同的计算机系统架构，其可包括：1)在与CPU分开的芯片上的协处理器；2)在与CPU相同的封装中但分开的管芯上的协处理器；3)与CPU在相同管芯上的协处理器(在该情况下，这样的协处理器有时被称为诸如集成图形和/或科学(吞吐量)逻辑之类的专用逻辑，或被称为专用核)；以及4)可以将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上的芯片上系统。接着描述示例性核架构，随后描述示例性处理器和计算机架构。

示例性核架构

有序和无序核框图

图9A是示出根据本发明的多个实施例的示例性有序流水线和示例性的寄存器重命名的无序发布/执行流水线两者的框图。图9B是示出根据本发明的多个实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框图。图9A-B中的实线框示出了有序流水线和有序核，而可选增加的虚线框示出了寄存器重命名的、无序发布/执行流水线和核。考虑到有序方面是无序方面的子集，将描述无序方面。

在图9A中，处理器流水线900包括取出级902、长度解码级904、解码级906、分配级908、重命名级910、调度(也被称为分派或发布)级912、寄存器读取/存储器读取级914、执行级916、写回/存储器写入级918、异常处理级922和提交级924。

图9B示出处理器核990，其包括耦合至执行引擎单元950的前端单元930，该前端单元和执行引擎单元两者均耦合至存储器单元970。核990可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或其他核类型。作为又一选项，核990可以是专用核，例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。

前端单元930包括耦合到指令高速缓存单元934的分支预测单元932，该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)936，该指令转换后备缓冲器耦合到指令取出单元938，指令取出单元耦合到解码单元940。解码单元940(或解码器)可解码指令，并生成从原始指令解码出的、或以其他方式反映原始指令的或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元940可使用各种不同的机制来实现。合适的机制的示例包括但不限于，查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核990包括(例如，在解码单元940中或以其他方式在前端单元930内的)用于存储某些宏指令的微代码的微代码ROM或其他介质。解码单元940耦合至执行引擎单元950中的重命名/分配器单元952。

执行引擎单元950包括耦合到引退单元954和一个或多个调度器单元的集合956的重命名/分配器单元952。调度器单元956表示任意数量的不同调度器，包括预留站、中央指令窗等。调度器单元956耦合到物理寄存器组单元958。每个物理寄存器组单元958表示一个或多个物理寄存器组，其中不同的物理寄存器组保存一个或多个不同的数据类型(诸如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)、状态(诸如，作为将要执行的下一个指令的地址的指令指针)等。在一个实施例中，物理寄存器组单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。物理寄存器组单元958被引退单元954覆盖，以示出可以此实现寄存器重命名和无序执行的多种方式(例如，使用重排序缓冲器和引退寄存器组；使用未来文件(futurefile)、历史缓冲器、引退寄存器组；使用寄存器映射和寄存器池等等)。引退单元954和物理寄存器组单元958耦合至执行群集960。执行群集960包括一个或多个执行单元的集合962以及一个或多个存储器访问单元的集合964。执行单元962可执行各种操作(例如，移位、加法、减法、乘法)并可对多种数据类型(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集的多个执行单元，但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。调度器单元956、物理寄存器组单元958和执行群集960被示为可能有多个，因为某些实施例为某些类型的数据/操作创建分开的流水线(例如，标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线和/或各自具有其自身的调度器单元、物理寄存器组单元和/或执行群集的存储器访问流水线——以及在分开的存储器访问流水线的情况下，实现其中仅该流水线的执行群集具有存储器访问单元964的某些实施例)。还应当理解，在使用分开的流水线的情况下，这些流水线中的一个或多个可以为无序发布/执行的，并且其余流水线可以是有序的。

存储器访问单元的集合964耦合到存储器单元970，该存储器单元包括耦合到数据高速缓存单元974的数据TLB单元972，其中数据高速缓存单元耦合到第二级(L2)高速缓存单元976。在一个示例性实施例中，存储器访问单元964可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合至存储器单元970中的数据TLB单元972。指令高速缓存单元934还耦合到存储器单元970中的第二级(L2)高速缓存单元976。L2高速缓存单元976耦合至一个或多个其他层级的高速缓存，并最终耦合至主存储器。

作为示例，示例性的寄存器重命名无序发布/执行核架构可以如下所述地实现流水线900：1)指令取出938执行取出和长度解码级902和904；2)解码单元940执行解码级906；3)重命名/分配器单元952执行分配级908和重命名级910；4)调度器单元956执行调度级912；5)物理寄存器组单元958和存储器单元970执行寄存器读取/存储器读取级914；执行群集960执行执行级916；6)存储器单元970和物理寄存器组单元958执行写回/存储器写入级918；7)各单元可牵涉到异常处理级922；以及8)引退单元954和物理寄存器组单元958执行提交级924。

核990可支持一个或多个指令集(例如，x86指令集(具有与较新版本一起添加的一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼州桑尼维尔市的ARM控股的ARM指令集(具有诸如NEON等可选附加扩展))，其中包括本文中描述的各指令。在一个实施例中，核990包括用于支持紧缩数据指令集扩展(例如SSE、AVX1、AVX2等等)的逻辑，由此允许许多多媒体应用所使用的操作利用紧缩数据来执行。

应当理解，核可支持多线程化(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程化，此各种方式包括时分多线程化、同步多线程化(其中单个物理核为物理核正在同步多线程化的各线程中的每一个线程提供逻辑核)或其组合(例如，时分取出和解码以及此后诸如用超线程化技术来同步多线程化)。

尽管在无序执行的上下文中描述了寄存器重命名，但应当理解，可以在有序架构中使用寄存器重命名。尽管所示出的处理器的实施例还包括分开的指令和数据高速缓存单元934/974以及共享的L2高速缓存单元976，但替代实施例可具有用于指令和数据两者的单个内部高速缓存，例如，第一级(L1)内部高速缓存或多个层级的内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者，所有高速缓存都可以在核和/或处理器的外部。

具体的示例性有序核架构

图10A-B示出了更具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。取决于应用，这些逻辑块通过高带宽的互连网络(例如，环形网络)与一些固定功能逻辑、存储器I/O接口和其他必要的I/O逻辑通信。

图10A是根据本发明的多个实施例的单个处理器核以及它与管芯上互连网络1002的连接及其第二级(L2)高速缓存的本地子集1004的框图。在一个实施例中，指令解码器1000支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1006允许对进入标量和向量单元中的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计)，标量单元1008和向量单元1010使用分开的寄存器集合(分别为标量寄存器1012和向量寄存器1014)，并且在这些寄存器之间转移的数据被写入到存储器并随后从第一级(L1)高速缓存1006读回，但是本发明的替代实施例可以使用不同的方法(例如，使用单个寄存器集合或包括允许数据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。

L2高速缓存的本地子集1004是全局L2高速缓存的部分，该全局L2高速缓存被划分成多个分开的本地子集，每个处理器核对应一个本地子集。每个处理器核具有去往其自身的L2高速缓存的本地子集1004的直接访问路径。将由处理器核读取的数据存储在其L2高速缓存子集1004中，并且可以与并行于其他处理器核访问它们自身的本地L2高速缓存子集来迅速地访问它。将由处理器核写入的数据存储在其自身的L2高速缓存子集1004中，并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的，以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理能够在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。

图10B是根据本发明的多个实施例的图10A中的处理器核的部分的展开图。图10B包括L1高速缓存1004的L1数据高速缓存1006A部分，以及关于向量单元1010和向量寄存器1014的更多细节。具体地说，向量单元1010是16宽向量处理单元(VPU)(见16宽ALU1028)，该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1020支持对寄存器输入的混合，通过数值转换单元1022A-B支持数值转换，并通过复制单元1024支持对存储器输入的复制。写掩码寄存器1026允许预测所得的向量写入。

具有集成存储器控制器和图形器件的处理器

图11是根据本发明的多个实施例可能具有多于一个的核、可能具有集成存储器控制器以及可能具有集成图形器件的处理器1100的框图。图11中的实线框示出具有单个核1102A、系统代理1100、一个或多个总线控制器单元的集合1110的处理器1100，而虚线框的可选附加示出具有多个核1102A-N、系统代理单元1110中的一个或多个集成存储器控制器单元的集合1114以及专用逻辑1108的替代处理器1100。

因此，处理器1100的不同实现可包括：1)CPU，其中专用逻辑1108是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，并且核1102A-N是一个或多个通用核(例如，通用有序核、通用无序核、这两者的组合)；2)协处理器，其中核1102A-N是旨在主要用于图形和/或科学(吞吐量)的多个专用核；以及3)协处理器，其中核1102A-N是大量通用有序核。因此，处理器1100可以是通用处理器、协处理器或专用处理器，例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器1100可以是一个或多个基板的部分，并且/或者可使用多种工艺技术(例如，BiCMOS、CMOS或NMOS)中的任意技术被实现在一个或多个基板上。

存储器层次结构包括核内的一个或多个层级的高速缓存、一个或多个共享高速缓存单元的集合1106以及耦合至集成存储器控制器单元集合1114的外部存储器(未示出)。共享高速缓存单元的集合1106可包括一个或多个中级高速缓存，诸如，第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或它们的组合。尽管在一个实施例中，基于环的互连单元1112将集成图形逻辑1108、共享高速缓存单元的集合1106以及系统代理单元1110/集成存储器控制器单元1114互连，但替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中，可维持一个或多个高速缓存单元1106和核1102A-N之间的一致性(coherency)。

在一些实施例中，一个或多个核1102A-N能够进行多线程操作。系统代理1110包括协调和操作核1102A-N的那些组件。系统代理单元1110可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括调节核1102A-N以及集成图形逻辑1108的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核1102A-N在架构指令集方面可以是同构的或异构的；也就是说，这些核1102A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。

示例性计算机架构

图12-15是示例性计算机架构的框图。本领域已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般而言，能够涵盖本文中所公开的处理器和/或其他执行逻辑的各种系统和电子设备一般都是合适的。

现在参考图12，所示出的是根据本发明一个实施例的系统1200的框图。系统1200可包括一个或多个处理器1210、1215，这些处理器耦合到控制器中枢1220。在一个实施例中，控制器中枢1220包括图形存储器控制器中枢(GMCH)1290和输入/输出中枢(IOH)1250(其可以在分开的芯片上)；GMCH1290包括存储器和图形控制器，存储器1240和协处理器1245耦合到该存储器和图形控制器；IOH1250将输入/输出(I/O)设备1260耦合到GMCH1290。或者，存储器和图形控制器中的一个或两者可以被集成在处理器内(如本文中所描述的)，存储器1240和协处理器1245直接耦合到处理器1210以及控制器中枢1220，控制器中枢1220与IOH1250处于单个芯片中。

附加的处理器1215的可选性质在图12中通过虚线来表示。每一处理器1210、1215可包括本文中描述的处理核中的一个或多个，并且可以是处理器1100的某一版本。

存储器1240可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢1220经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接1295与处理器1210、1215进行通信。

在一个实施例中，协处理器1245是专用处理器，例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等。在一个实施例中，控制器中枢1220可以包括集成图形加速器。

在物理资源1210、1215之间可以存在包括架构、微架构、热、和功耗特性等的一系列品质度量方面的各种差异。

在一个实施例中，处理器1210执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器1210将这些协处理器指令识别为应当由附连的协处理器1245执行的类型。因此，处理器1210在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1245。协处理器1245接受并执行所接收的协处理器指令。

现在参考图13，所示为根据本发明的实施例的更具体的第一示例性系统1300的框图。如图13所示，多处理器系统1300是点对点互连系统，且包括经由点对点互连1350耦合的第一处理器1370和第二处理器1380。处理器1370和1380中的每一个都可以是处理器1100的某一版本。在本发明的一个实施例中，处理器1370和1380分别是处理器1210和1215，而协处理器1338是协处理器1245。在另一实施例中，处理器1370和1380分别是处理器1210和协处理器1245。

处理器1370和1380示出为分别包括集成存储器控制器(IMC)单元1372和1382。处理器1370还包括作为其总线控制器单元的部分的点对点(P-P)接口1376和1378；类似地，第二处理器1380包括P-P接口1386和1388。处理器1370、1380可以经由使用点对点(P-P)接口电路1378、1388的P-P接口1350来交换信息。如图13所示，IMC1372和1382将处理器耦合到相应的存储器，即存储器1332和存储器1334，它们可以是本地附连到各自的处理器的主存储器的多个部分。

处理器1370、1380可各自经由使用点对点接口电路1376、1394、1386、1398的各个P-P接口1352、1354与芯片组1390交换信息。芯片组1390可以可选地经由高性能接口1339与协处理器1338交换信息。在一个实施例中，协处理器1338是专用处理器，例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等。

共享高速缓存(未示出)可被包括在任一处理器中，或在两个处理器的外部但经由P-P互连与这些处理器连接，从而如果处理器被置于低功率模式，则任一个或这两个处理器的本地高速缓存信息可被存储在该共享的高速缓存中。

芯片组1390可以经由接口1396耦合至第一总线1316。在一个实施例中，第一总线1316可以是外围组件互连(PCI)总线或诸如PCI高速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图13所示，各种I/O设备1314可连同总线桥1318一起耦合到第一总线1316，总线桥1318将第一总线1316耦合到第二总线1320。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器之类的一个或多个附加处理器1315耦合到第一总线1316。在一个实施例中，第二总线1320可以是低引脚计数(LPC)总线。各种设备可以被耦合至第二总线1320，在一个实施例中，这些设备包括例如，键盘/鼠标1322、通信设备1327以及诸如可包括指令/代码和数据1330的盘驱动器或其他大容量存储设备的存储单元1328。此外，音频I/O1324可以被耦合至第二总线1320。注意，其他架构是可能的。例如，代替图13的点对点架构，系统可以实现多分支总线或其他此类架构。

现在参考图14，所示为根据本发明的实施例的更具体的第二示例性系统1400的框图。图13和14中的相同部件用相同附图标记表示，并已从图14中省去了图13中的某些方面，以避免使图14的其他方面变得模糊。

图14示出处理器1370、1380可分别包括集成存储器和I/O控制逻辑(“CL”)1372和1382。因此，CL1372、1382包括集成存储器控制器单元并包括I/O控制逻辑。图14示出不仅存储器1332、1334耦合至CL1372、1382，而且I/O设备1414也耦合至控制逻辑1372、1382。传统I/O设备1415被耦合至芯片组1390。

现在参照图15，所示出的是根据本发明实施例的SoC1500的框图。图11中的相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC上的可选特征。在图15中，互连单元1502被耦合至：应用处理器1510，其包括一个或多个核的集合1102A-N以及共享高速缓存单元1106；系统代理单元1100；总线控制器单元1116；集成存储器控制器单元1114；一个或多个协处理器的集合1520，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元1530；直接存储器存取(DMA)单元1532；以及用于耦合至一个或多个外部显示器的显示单元1540。在一个实施例中，协处理器1520包括专用处理器，例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等。

本文公开的机制的多个实施例可实现在硬件、软件、固件或此类实现方法的组合中。本发明的多个实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码(例如，图13中示出的代码1330)应用于输入指令，以执行本文描述的多个功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任何情形下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在表示处理器中的各种逻辑的机器可读介质上的表示性指令来实现，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。可将被称为“IP核”的此类表示存储在有形的机器可读介质上，并将其提供给各种客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态的有形安排，其包括存储介质，诸如，硬盘；任何其他类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘；半导体器件，诸如，只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其他类型的介质。

因此，本发明的多个实施例还包括非暂态的有形机器可读介质，该介质包含指令或包含设计数据，诸如硬件描述语言(HDL)，它定义本文中描述的结构、电路、装置、处理器和/或系统特征。此类实施例也被称为程序产品。

仿真(包括二进制变换、代码变形等)

在一些情况下，指令转换器可用来将指令从源指令集转换至目标指令集。例如，指令转换器可以变换(例如，使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式将指令转换成将由核来处理的一个或多个其他指令。指令转换器可以用软件、硬件、固件或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

图16是根据本发明的多个实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中，指令转换器是软件指令转换器，但作为替代，该指令转换器可在软件、固件、硬件或其各种组合中实现。图16示出可使用x86编译器1604来编译利用高级语言1602的程序，以生成可由具有至少一个x86指令集核的处理器1616原生执行的x86二进制代码1606。具有至少一个x86指令集核的处理器1616表示能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器：(1)英特尔x86指令集核的指令集的本质部分，或(2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器1604表示用于生成x86二进制代码1606(例如，目标代码)的编译器，该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器1616上执行。类似地，图16示出可以使用替代的指令集编译器1608来编译利用高级语言1602的程序，以生成可以由不具有至少一个x86指令集核的处理器1614(例如，具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码1610。指令转换器1612用于将x86二进制代码1606转换成可以由不具有x86指令集核的处理器1614原生执行的代码。该转换后的代码不太可能与替代的指令集二进制代码1610相同，因为能够这样做的指令转换器难以制造；然而，转换后的代码将完成一般操作并由来自替代指令集的指令构成。因此，指令转换器1612通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码1606的软件、固件、硬件或其组合。

也可以可选地将针对图4-8中任意一个所描述的组件、特征和细节用于图2-3中的任意一个中。此外，也可以可选地将针对本文中所描写的装置中的任何一个的、本文中所述的组件、特征和细节用于和/或应用于本文中所述的多个方法中的任何方法，在多个实施例中，可由和/或可利用此类装置来执行这些方法。可将本文所述的处理器中的任意一个包括在本文所公开的计算机系统或其他系统的任意一个中。在一些实施例中，指令可具有本文所公开的指令格式的特征或细节，但是这并非是必需的。

在说明书和权利要求中，可能使用了术语“耦合的”和/或“连接的”及其派生词。这些术语不旨在互为同义词。相反，在多个实施例中，“连接的”用于指示两个或更多元件彼此直接物理和/或电接触。“耦合的”可意味着两个或更多个元件彼此直接物理和/或电接触。然而，“耦合的”也可意味着两个或更多个元件并未彼此直接接触，但是仍然彼此协作或彼此作用。例如，执行单元可通过一个或多个中间组件与寄存器和/或解码单元耦合。在多个附图中，箭头用于示出连接和耦合。

在说明书和/或权利要求书中，可能已使用了术语“逻辑”。该术语是指硬件、固件、软件或它们的各种组合。在示例实施例中，该术语可以是指集成电路、专用电路、模拟电路、数字电路、可编程逻辑器件、包括指令的存储设备等，以及它们的各种组合。在一些实施例中，它可包括至少某个硬件(例如，晶体管、门、其他电路组件等)。

可能已使用了术语“和/或”。如本文中所使用的那样，术语“和/或”意思是一个或其他或两者(例如，A和/或B意思是：A或B，或者A和B两者)。

在以上描述中，为了提供对多个实施例的透彻理解，阐述了具体的细节。然而，在没有这些具体细节中的一些的情况下，可实施其他实施例。本发明的范围不是由以上所提供的具体示例来确定的，而仅由所附权利要求确定。在其他实例中，以框图形式和/或没有细节的形式示出了公知的电路、结构、设备和操作，以避免使对说明书的理解变得模糊。在认为合适的地方，已经在多个附图间重复了附图标记或附图标记的结尾部分，以指示可以可选地具有类似或相同特性的对应或类似的元件，除非指出或以其他方式使之显而易见。

某些操作可由硬件组件执行，或者可具体化在机器可执行或电路可执行指令中，这些操作可用于使得和/或者导致机器、电路或硬件组件(例如，处理器、处理器的部分、电路等)利用执行操作的指令被编程。也可以可选地由硬件和软件的组合来执行这些操作。处理器、机器、电路、或硬件可包括可用于执行和/或处理指令且响应于该指令存储结果的专用或特定电路或者其他逻辑(例如，潜在地与固件和/或软件组合的硬件)。

一些实施例包括制品(例如，计算机程序产品)，该制品包括机器可读介质。该介质可包括以机器可读的形式提供(例如，存储)信息的机制。机器可读介质可提供指令或指令序列或者可在该机器可读介质上存储了指令或指令序列，如果和/或当由机器执行该指令或指令序列，该指令或指令序列用于使该机器执行和/或导致该机器执行本文中所公开的一种或多种操作、方法或技术。该机器可读介质可提供(例如，存储)本文中所公开的指令的实施例中的一个或多个。

在一些实施例中，该机器可读介质可包括有形的和/或非暂态的机器可读存储介质。例如，有形的和/或非暂态机器可读存储介质可包括：软盘、光存储介质、光盘、光学数据存储设备、CD-ROM、磁盘、磁光盘、只读存储器(ROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、闪存、相变化存储器、相变化数据存储材料、非易失性存储器、非易失性数据存储设备、非暂态存储器、或暂态数据存储设备等。

合适机器的示例包括但不限于，通用处理器、专用处理器、指令处理装置、数字逻辑电路、集成电路等。合适的机器的另一些示例包括，包含处理器、指令处理装置、数字逻辑电路或集成电路的计算设备或其他电子设备。此类计算设备和电子设备的示例包括但不限于，台式计算机、膝上型计算机、笔记本计算机、平板计算机、上网本、智能电话、蜂窝电话、其他无线设备、服务器、网络设备(例如，路由器和交换机)、移动网络设备(MID)、媒体播放器、智能电视、上网机、机顶盒和视频游戏控制器。

例如，贯穿本说明书对“一个实施例”、“实施例”、“一个或多个实施例”、“一些实施例”的引用指示特定特征可被包括在本发明的实施中，但是不一定需要这样。类似地，在说明书中，为了使本公开顺畅并且辅助对各个发明性方面的理解，有时在单个实施例、附图及其描述中将各种特征归集在一起。然而，不应当将该公开方法解释为反映本发明需要比每项权利要求中所明确记载的更多特征的意图。相反，如所附权利要求反映的那样，发明性方面在于少于所公开的单个实施例的所有特征。因此，将遵循具体实施方式的各项权利要求明确地结合进该具体实施方式，每一项权利独立地作为本发明单独的实施例而存在。

示例实施例

以下示例涉及进一步的实施例。这些示例中的细节可用于一个或多个实施例中的任何地方。

示例1是处理器或其他装置，其包括多个紧缩数据寄存器和用于解码指令的解码单元。该指令指示一个或多个源紧缩数据操作数，该一个或多个源紧缩数据操作数具有四个在先的SM4密码轮的四个32位的结果以及四个32位的值。该处理器也包括与解码单元和多个紧缩数据寄存器耦合的执行单元。该执行单元用于：响应于该指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在由该指令所指示的目的地存储位置中。

示例2包括示例1的处理器，其中，解码单元用于解码指令，该指令指示具有四个在先的SM4密码轮的四个32位的结果的第一128位的源紧缩数据操作数。该指令也指示具有四个32位的值的第二128位的源紧缩数据操作数。

示例3包括示例1-2中任意一项的处理器，其中，根据轮顺序，将四个在先的SM4密码轮的四个32位的结果安排在源紧缩数据操作数中。

示例4包括示例1-3中任意一项的处理器，其中，将对应轮的32位的值和32位的结果存储在第一和第二源紧缩数据操作数的对应数据元素中。

示例5包括示例1-4中任意一项的处理器，其中，解码单元用于解码指令，其中，四个32位的结果是四个在先的SM4加密轮的四个32位的结果。同样，其中四个32位的值是用于四个在先的SM4加密轮的四个32位的轮密钥。此外，其中执行单元用于存储四个后续紧跟的顺序轮的四个32位的结果，其是四个后续紧跟的顺序的SM4加密轮的四个32位的结果。

示例6包括示例1-4中任意一项的处理器，其中，解码单元用于解码指令，其中，四个32位的结果是四个在先的SM4解密轮的四个32位的结果。同样，其中四个32位的值是用于四个在先的SM4解密轮的四个32位的轮密钥。此外，其中执行单元用于存储四个后续紧跟的顺序轮的四个32位的结果，其是四个后续紧跟的顺序的SM4解密轮的四个32位的结果。

示例7包括示例1-4中任意一项的处理器，其中，解码单元用于解码指令，其中，四个32位的结果是四个在先的SM4密钥扩展轮的四个32位的轮密钥。同样，其中四个32位的值是用于四个在先的SM4密钥扩展轮的四个32位的密钥生成常数。此外，其中执行单元用于存储四个后续紧跟的顺序轮的四个32位的结果，其是四个后续紧跟的顺序的SM4密钥扩展轮的四个32位的轮密钥。

示例8包括示例1-3中任意一项的处理器，其中，解码单元用于解码指令，该指令指示第一源紧缩数据操作数，该第一源紧缩数据操作数用于：将第四在先的SM4密码算法轮的第一32位的结果包括在位[31:0]中；并且将第三在先的SM4密码算法轮的第二32位的结果包括在位[63:32]中。该第一源紧缩数据操作数也用于：将第二在先的SM4密码算法轮的第三32位的结果包括在位[95:64]中；并且将紧接在先的SM4密码算法轮的第四32位的结果包括在位[127:96]中。

示例9包括示例8的处理器，其中，执行单元用于：响应于指令，存储结果紧缩数据，该结果紧缩数据用于：将第四最新近的SM4密码算法轮的第一32位的结果包括在位[31:0]中；以及将第三最新近的SM4密码算法轮的第二32位的结果包括在位[63:32]中。该结果紧缩数据也用于：将第二最新近的SM4密码算法轮的第三32位的结果包括在位[95:64]中；并且将最新近的SM4密码算法轮的第四32位的结果包括在位[127:96]中。

示例10包括示例1到9中任意一项的处理器，其中，解码单元用于解码指令，该指令具有一个或多个位，其用于指定四个后续紧跟的顺序的SM4密码轮是密码操作轮还是密钥扩展轮。

示例11包括示例1到9中任意一项的处理器，其中，执行单元用于：响应于指令，针对四个后续紧跟的顺序的SM4密码轮中的每一个，执行第一组异或(XOR)操作、非线性替换函数操作、包括XOR操作和循环操作的线性替换函数操作、以及XOR操作。

示例12包括示例1到9中任意一项的处理器，其中，执行单元用于：响应于指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在目的地存储位置中，该目的地存储位置由该指令显式地与全部的一个或多个源紧缩数据操作数分开地指定。

示例13包括示例1到9中任意一项的处理器，其中，该执行单元用于：响应于指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在目的地存储位置中，该目的地存储位置隐式地与用于一个或多个源紧缩数据操作数中的一个或多个的存储位置是相同的。

示例14是处理器中的方法，其包括接收指示一个或多个源紧缩数据操作数的指令。该一个或多个源紧缩数据操作数具有四个在先的SM4密码轮的四个32位的结果以及四个32位的值。该方法也包括：响应于该指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在目的地存储位置中。该目的地存储位置由该指令指示。

示例15包括示例14的方法，其中，存储包括：将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在128位的紧缩数据操作数中。

示例16包括示例14-15中任意一项的方法，其中，存储包括：存储根据轮顺序而安排的四个后续紧跟的顺序的SM4密码轮的四个32位的结果。

示例17包括示例14-16中任意一项的方法，其中，存储包括：存储四个后续紧跟的顺序的SM4密码轮的四个32位的结果，这四个后续紧跟的顺序的SM4密码轮是四个后续紧跟的顺序的SM4加密轮。

示例18包括示例14-16中任意一项的方法，其中，存储包括：存储用于四个后续紧跟的顺序的SM4密码轮的四个32位的轮密钥作为四个后续紧跟的连续的SM4密码轮的四个32位的结果，这四个后续紧跟的顺序的SM4密码轮是密钥扩展轮。

示例19包括示例14-18中任意一项的方法，其中，接收包括：接收指令，该指令包括一个或多个位，其指定四个后续紧跟的顺序的SM4密码轮是密码处理轮还是密钥扩展轮。

示例20包括示例14-18中任意一项的方法，进一步包括生成四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果中的每一个，其包括：对于每一轮，执行第一组异或(XOR)操作、非线性替换操作、线性替换操作和XOR操作。

示例21是用于处理多条指令的系统，其包括互连和与该互连耦合的处理器。该处理器用于接收指令，该指令指示一个或多个源紧缩数据操作数，该一个或多个源紧缩数据操作数具有四个在先的SM4密码轮的四个32位的结果以及四个32位的值。该处理器用于：响应于该指令，将四个后续紧跟的顺序的密码轮的四个32位的结果存储在由该指令所指示的目的地存储位置中。这些密码轮是具有非线性替换函数和线性替换函数的密码算法的那些轮。该线性替换函数用于对值(B)执行下列操作：BXOR(B<<<2)XOR(B<<<10)XOR(B<<<18)XOR(B<<<24)，其中，<<<表示左循环，而XOR表示异或。该系统也包括与该互连耦合的动态随机存取存储器(DRAM)。

示例22包括示例21的系统，其中，处理器用于：响应于指令，将根据轮顺序安排的四个后续的顺序的密码轮的四个32位的结果存储在目的地存储位置中。

示例23是制品，其包括非暂态机器可读存储介质。该非暂态机器可读存储介质存储指令。该指令指示四个在先的密钥扩展轮的四个32位的轮密钥和密码算法的四个32位的密钥生成常数。该密码算法定义系统参数片段，如果以十六进制表示法来表达，包括，a3b1bac6、56aa3350、677d9197和b27022dc。如果由机器执行该指令，该指令使该机器执行多个操作，这些操作包括将结果紧缩数据存储在由该指令所指示的目的地存储位置中。该结果紧缩数据包括四个后续紧跟的顺序的SM4密钥扩展轮的四个32位的轮密钥。

示例24包括示例23的制品，其中，将四个32位的轮密钥存储在128位的结果紧缩数据中，并且根据轮顺序来安排。

示例25包括处理器或其他装置，其用于执行示例14-20中任意一项所述的方法。

示例26包括处理器或其他装置，其包括用于执行示例14-20中任意一项所述的方法的设备。

示例27包括处理器，其包括用于执行示例14-20中任意一项所述的方法的模块、单元、逻辑、电路和装置的任意组合。

示例28包括制品，其包括可选非暂态的机器可读介质，该非暂态机器可读介质可选地存储或以其他方式提供指令，如果和/或当由处理器、计算机系统或其他机器执行该指令，该指令用于使该机器执行示例14-20中任意一项的方法。

示例29包括计算机系统或其他电子设备，其包括互连、与该互连耦合的示例1-13中任意一项所述的处理器以及与该互连耦合的至少一个组件，该至少一个组件是从下列各项中选出的：动态随机存取存储器(DRAM)、网络接口、图形芯片、无线通信芯片、全球移动通信系统(GSM)天线、相变存储器和视频相机。

示例30包括基本上如本文中所述的处理器或其他装置。

示例31包括用于执行基本上如本文中所述的任何方法的处理器或其他装置。

示例32包括处理器或其他装置，其包括用于执行基本上如本文中所述的任何方法的设备。

示例33包括用于执行基本上如本文中所述的任何四轮SM4指令的处理器或其他装置。

示例34包括处理器或其他装置，其包括用于执行基本上如本文中所述的任何四轮SM4指令的设备。

示例35包括处理器或其他装置，其包括用于对第一指令集中的指令进行解码的解码单元。该解码单元用于接收一条或多条指令，这些指令对可作为基本上如本文中所公开的指令中的任何指令的第一指令进行仿真，其将是第二指令集中的指令。该处理器或其他装置也包括一个或多个执行单元，其与解码单元耦合，并且用于执行第一指令集中的一条或多条指令。这一个或多个执行单元用于响应于第一指令集中的这一条或多条指令，将结果存储在目的地中。该结果可包括基本上如本文中针对该第一指令所公开的结果中的任何结果。

示例36包括计算机系统或其他电子设备，其包括处理器，该处理器具有用于对第一指令集中的指令进行解码的解码单元，并且具有一个或多个执行单元。该计算机系也包括存储设备，其耦合至处理器。该存储设备用于存储第一指令，其可以是基本上如本文中所公开的指令中的任何指令，并且将是第二指令集中的指令。该存储设备也用于存储指令，以便将第一指令转换为第一指令集中的一条或多条指令。当由处理器执行第一指令集中的该一条或多条指令时，这些指令用于使该处理器将结果存储在目的地中。该结果可包括基本上如本文中针对该第一指令所公开的结果中的任何结果。

Claims

1.一种处理器，包括：

多个紧缩数据寄存器；

解码单元，用于解码指令，所述指令用于指示一个或多个源紧缩数据操作数，所述一个或多个源紧缩数据操作数具有四个在先的SM4密码轮的四个32位的结果以及四个32位的值；以及

执行单元，与所述解码单元和所述多个紧缩数据寄存器耦合，所述执行单元用于：响应于所述指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在由所述指令指示的目的地存储位置中。

2.如权利要求1所述的处理器，其特征在于，所述解码单元用于解码所述指令，所述指令指示具有所述四个在先的SM4密码轮的所述四个32位的结果的第一128位的源紧缩数据操作数，并且指示具有所述四个32位的值的第二128位的源紧缩数据操作数。

3.如权利要求1所述的处理器，其特征在于，根据轮顺序，将所述四个在先的SM4密码轮的所述四个32位的结果安排在源紧缩数据操作数中。

4.如权利要求1所述的处理器，其特征在于，将对应轮的所述32位的值和所述32位的结果存储在第一和第二源紧缩数据操作数的对应数据元素中。

5.如权利要求1所述的处理器，其特征在于，所述解码单元用于解码所述指令，其中，所述四个32位的结果是四个在先的SM4加密轮的四个32位的结果，且其中所述32位的值是用于所述四个在先的SM4加密轮的四个32位的轮密钥，并且其中，所述执行单元用于存储四个后续紧跟的顺序轮的四个32位的结果，所述四个后续紧跟的顺序轮的四个32位的结果是四个后续紧跟的顺序的SM4加密轮的四个32位的结果。

6.如权利要求1所述的处理器，其特征在于，所述解码单元用于解码所述指令，其中，所述四个32位的结果是四个在先的SM4解密轮的四个32位的结果，且其中，所述32位的值是用于所述四个在先的SM4解密轮的四个32位的轮密钥，并且其中，所述执行单元用于存储四个后续紧跟的顺序轮的四个32位的结果，所述四个后续紧跟的顺序轮的四个32位的结果是四个后续紧跟的顺序的SM4解密轮的四个32位的结果。

7.如权利要求1所述的处理器，其特征在于，所述解码单元用于解码所述指令，其中，所述四个32位的结果是用于四个在先的SM4密钥扩展轮的四个32位的轮密钥，且其中，所述四个32位的值是用于所述四个在先的SM4密钥扩展轮的四个32位的密钥生成常数，并且其中，所述执行单元用于存储四个后续紧跟的顺序轮的四个32位的结果，所述四个后续紧跟的顺序轮的四个32位的结果是用于四个后续紧跟的顺序的SM4密钥扩展轮的四个32位的轮密钥。

8.如权利要求1所述的处理器，其特征在于，所述解码单元用于解码所述指令，所述指令指示第一源紧缩数据操作数，所述第一源紧缩数据操作数用于：

将第四在先SM4密码算法轮的第一32位的结果包括在位[31:0]中；

将第三在先SM4密码算法轮的第二32位的结果包括在位[63:32]中；

将第二在先SM4密码算法轮的第三32位的结果包括在位[95:64]中；以及

将紧接的在先SM4密码算法轮的第四32位的结果包括在位[127:96]中。

9.如权利要求1所述的处理器，其特征在于，所述执行单元用于响应于所述指令来存储结果紧缩数据，所述结果紧缩数据用于：

将第四最新近的SM4密码算法轮的第一32位的结果包括在位[31:0]中；

将第三最新近的SM4密码算法轮的第二32位的结果包括在位[63:32]中；

将第二最新近的SM4密码算法轮的第三32位的结果包括在位[95:64]中；以及

将最新近的SM4密码算法轮的第四32位的结果包括在位[127:96]中。

10.如权利要求1到9中任意一项所述的处理器，其特征在于，所述解码单元用于解码所述指令，所述指令具有一个或多个位，所述一个或多个位用于指定所述四个后续紧跟的顺序的SM4密码轮是密码处理轮还是密钥扩展轮。

11.如权利要求1到9中任意一项所述的处理器，其特征在于，所述执行单元用于，响应于所述指令，针对所述四个后续紧跟的顺序的SM4密码轮中的每一个，执行第一组异或(XOR)操作、非线性替换函数操作、包括XOR操作和循环操作的线性替换函数操作、以及XOR操作。

12.如权利要求1到9中任意一项所述的处理器，其特征在于，所述执行单元用于，响应于所述指令，将所述四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果存储在目的地存储位置中，所述目的地存储位置由所述指令显式地与全部所述一个或多个源紧缩数据操作数分开地指定。

13.如权利要求1到9中任意一项所述的处理器，其特征在于，所述执行单元用于，响应于所述指令，将所述四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果存储在目的地存储位置中，所述目的地存储位置隐式地与用于所述一个或多个源紧缩数据操作数中的一个或多个的存储位置是相同的。

14.一种处理器中的方法，包括：

接收指令，所述指令指示一个或多个源紧缩数据操作数，所述一个或多个源紧缩数据操作数具有四个在先的SM4密码轮的四个32位的结果以及四个32位的值；以及

响应于所述指令，将四个后续紧跟的顺序的SM4密码轮的四个32位的结果存储在目的地存储位置中，所述目的地存储位置由所述指令指示。

15.如权利要求14所述的方法，其特征在于，存储包括：将所述四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果存储在128位的紧缩数据操作数中。

16.如权利要求14所述的方法，其特征在于，存储包括：存储根据轮顺序来安排的所述四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果。

17.如权利要求14所述的方法，其特征在于，存储包括：存储所述四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果，所述四个后续紧跟的顺序的SM4密码轮是四个后续紧跟的顺序的SM4加密轮。

18.如权利要求14所述的方法，其特征在于，存储包括：存储用于所述四个后续紧跟的顺序的SM4密码轮的四个32位的轮密钥作为所述四个后续紧跟的连续的SM4密码轮的所述四个32位的结果，所述四个后续紧跟的顺序的SM4密码轮是密钥扩展轮。

19.如权利要求14所述的方法，其特征在于，接收包括：接收所述指令，所述指令包括一个或多个位，所述一个或多个位用于指定所述四个后续紧跟的顺序的SM4密码轮是密码处理轮还是密钥扩展轮。

20.如权利要求14所述的方法，其特征在于，进一步包括生成所述四个后续紧跟的顺序的SM4密码轮的所述四个32位的结果中的每一个，包括：对于每一轮，执行第一组异或(XOR)操作、非线性替换操作、线性替换操作和XOR操作。

21.一种用于处理指令的系统，包括：

互连；

处理器，与所述互连耦合，所述处理器用于接收指令，所述指令指示一个或多个源紧缩数据操作数，所述一个或多个源紧缩数据操作数具有四个在先的密码轮的四个32位的结果以及32位的值，所述处理器用于响应于所述指令，将四个后续紧跟的顺序的密码轮的四个32位的结果存储在所述指令所指示的目的地存储位置中，其中，所述密码轮是具有非线性替换函数和线性替换函数的密码算法的那些轮，所述线性替换函数用于对值(B)执行下列操作：

BXOR(B<<<2)XOR(B<<<10)XOR(B<<<18)XOR(B<<<24),

其中，<<<表示左循环，而XOR表示异或；以及

动态随机存取存储器(DRAM)，与所述互连耦合。

22.如权利要求21所述的系统，其特征在于，所述处理器用于：响应于所述指令，将按轮顺序安排的所述四个后续紧跟的顺序的密码轮的所述四个32位的结果存储在所述目的地存储位置中。

23.一种设备，包括用于执行如权利要求14到20中任意一项所述的方法的装置。

24.一种制品，包括存储指令的非暂态机器可读介质，如果由机器执行所述指令，则所述指令用于使所述机器执行如权利要求14到20中任一项所述的方法。

25.一种电子设备，包括：互连；如权利要求1到9中任意一项所述的处理器，与所述互连耦合；以及动态随机存取存储器(DRAM)，与所述互连耦合，所述DRAM存储包括所述指令的SM4密码算法。