CN105247472A

CN105247472A - 用于对统一码字符的可变长度代码点转码的处理器、方法、系统和指令

Info

Publication number: CN105247472A
Application number: CN201480029898.3A
Authority: CN
Inventors: S·阔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-06-28
Filing date: 2014-06-26
Publication date: 2016-01-13
Anticipated expiration: 2034-06-26
Also published as: KR101783535B1; US10261788B2; TWI517042B; EP3014415A4; US20170220351A1; US9626184B2; RU2015151128A; KR20150142024A; RU2638766C2; BR112015030186A2; WO2014210366A1; CN105247472B; US20150006857A1; TW201506782A; EP3014415A1

Abstract

处理器包括多个紧缩数据寄存器。处理器还包括用于对紧缩的可变长度代码点长度确定指令解码的解码单元。指令指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。指令还指示目的地存储位置。处理器还具有与解码单元和紧缩数据寄存器耦合的执行单元。执行单元用于：响应于指令而将结果紧缩数据存储在所指示的目的地存储位置中。结果紧缩数据将具有多个紧缩的可变长度码点中的每一个的长度。还公开了其他处理器、方法、系统和指令。

Description

用于对统一码字符的可变长度代码点转码的处理器、方法、系统和指令

背景

技术领域

本文中所描述的各实施例一般涉及处理器。具体而言，本文中所描述的各实施例一般涉及具有对于对统一码(Unicode)字符的可变长度代码点转码有用的指令的处理器。

背景技术

计算机根本上是处理二进制数。它们一般不处理各种不同的语言或惯例中所使用的各种不同类型的字母、十进制数、符号或其他字符。相反，由二进制数对这些不同的字母、十进制数、符号和他字符赋值，并由二进制数表示它们。

通用字符集(UniversalCharacterSet；UCS)是若干字符编码方式所基于的标准化字符集。UCS由国际标准ISO/IEC10646“信息技术-通用多八位组编码字符集(UCS)”以及对此标准的修订来定义。UCS包括来自世界上最流行的语言、脚本和管理的大量不同的字符，包括字母、数字、符号、表意符号、简写和其他字符。这些字符中的每一个字符都由被称为字符代码点(codepoint)的整数数字来标识。

伴随着UCS一起，已开发了统一码标准(Unicode)。统一码代表了用于对UCS的字符的一致的数字编码、表示和处理的计算行业标准。据报道，对于无论什么平台、无论什么程序、无论什么语言，统一码为每个字符提供唯一的数字。统一码当前由几乎所有的现代计算机使用，并充当用于在因特网上处理文本的基础。

可以通过各种不同的字符编码方式来实现统一码。一种普遍使用的编码是UTF-8(UCS转换格式-8位)。UTF-8是可以表示统一码中的每个字符的可变长度(例如，可变数量的字节)的编码方式。利用一个与四个字节之间的范围来表示每一个统一码字符。在统一码标准中也将字节称为八位组(octet)。UTF-8使用一个字节来表示ASCII字符中的任何一个。UTF-8向后兼容于ASCII，并且字符在ASCII和UTF-8两者中具有相同的编码方式。由两个、三个或四个字节来表示其他非ASCII字符。据估计，UTF-8是万维网中的网页中占主导的统一码编码方式，因为估计所有网页中的多于一半网页使用UTF-8来编码。UTF-8还广泛地由电子邮件程序用来显示和创建邮件。UTF-8也正越来越多地用于在某些编程语言、操作系统、应用编程接口(API)和软件应用中对统一码字符编码。

另一种普遍使用的编码方式是UTF-16(UCS转换格式-16位)。UTF-16是可以表示统一码中的每个字符的可变长度(例如，可变数量的字节)的编码方式。每一个统一码字符都利用两个或者四个字节来表示。UTF-16不向后兼容于ASCII。在某些编程语言中(诸如例如，Java、C#以及Java脚本(JavaScript))以及在某些操作系统中，UTF-16通常被用作统一码的内部形式。还使用各种其他已知的编码方式(例如，UTF-2、UTF-32、UTF-1，等等)。

通常，为了促进计算机系统内的处理，可以将UTF-8、UTF-16或其他经编码的数据转码为另一格式，诸如例如，统一码。转码表示一种编码方式到另一种编码方式的直接数字向数字的数据转换。可以出于各种原因来进行此类转码，诸如例如，为帮助改善处理数据的效率或速度，为将经编码的数据转换为软件使用的格式或更广泛地识别的格式，等等。通常需要大量的处理来将网页内容、以标记语言格式化的文档、XML文档等从一种编码方式(例如，UTF-8)转码为标准的统一码字符或其他格式。由于此类转码的流行性和/或其对性能的潜在影响，用于转码的新的有用的方法将提供优势。

附图说明

通过参考用于说明实施例的以下描述和所附附图，可最佳地理解本发明。在附图中：

图1是处理器的实施例的框图。

图2是可变长度的UTF-8代码点的特性表。

图3是可用于处理紧缩的可变长度代码点长度确定指令的实施例的处理器的实施例的框图。

图4是用于可变长度的UTF-8代码点的合适的紧缩的可变长度代码点长度确定操作的示例实施例的框图。

图5是在处理紧缩的可变长度代码点长度确定指令的实施例时由处理器执行和/或在处理器内执行的方法的实施例的流程框图。

图6是可用于执行或处理紧缩的可变长度代码点字符位(例如，统一码位)提取指令的实施例的处理器的实施例的框图。

图7是用于UTF-8代码点的合适的紧缩的UTF-8代码点字符位(例如，统一码位)提取操作的示例实施例的框图。

图8是示出在紧缩数据元素中安排或排序所提取的统一码位组的合适方式的框图。

图9是在处理紧缩的可变长度代码点字符位(例如，统一码位)提取指令的实施例时由处理器执行和/或在处理器内执行的方法的实施例的流程框图。

图10A是示出根据本发明的各实施例的通用向量友好指令格式及其A类指令模板的框图。

图10B是示出根据本发明的各实施例的通用向量友好指令格式及其B类指令模板的框图。

图11A是示出根据本发明的各实施例的示例性专用向量友好指令格式的框图。

图11B示出了专用向量友好指令格式，它指定字段的位置、尺寸、解释和顺序，以及那些字段中的某些的值，从这个意义上而言，它是专用的。

图11C是示出根据本发明的一个实施例的构成寄存器索引字段的专用向量友好指令格式的字段的框图。

图11D是示出根据本发明的一个实施例的构成扩充操作字段的专用向量友好指令格式的字段的框图。

图12是根据本发明的一个实施例的寄存器架构的框图。

图13A是示出根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的无序发布/执行流水线的框图。

图13B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核两者的框图。

图14A是根据本发明的各实施例的单个处理器核以及其到管芯上互连网络的连接以及它的第2级(L2)高速缓存的本地子集的框图。

图14B是根据本发明的各实施例的图14A中的处理器核的部分的展开图。

图15是根据本发明的各实施例的可以具有多于一个的核、可以具有集成存储器控制器并可以具有集成图形器件的处理器的框图。

图16所示为根据本发明的一个实施例的系统的框图。

图17所示为根据本发明的实施例的第一更具体的示例性系统的框图。

图18所示为根据本发明的实施例的第二更具体的示例性系统的框图。

图19所示为根据本发明的实施例的SoC的框图。

图20是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

本文中所公开的是对于对可变长度的代码点转码有用的指令、用于执行所述指令的处理器、由处理器在实行或执行所述指令时执行的方法，以及合并有用于实行或执行所述指令的一个或多个处理器的系统。在以下描述中，阐述多个特定细节(例如，特定的指令操作/功能、指令组合、编码格式、处理器配置、操作序列，等等)。然而，在没有这些特定细节的情况下，也可实践实施例。在其他实例中，未详细示出公知的电路、结构和技术以避免混淆对本描述的理解。

图1是处理器100的实施例的框图。该处理器表示指令处理设备的实施例。在一些实施例中，处理器可以是通用处理器(例如，在台式机、膝上型计算机等计算机中常常被用作中央处理单元(CPU)类型的通用微处理器)。或者，处理器可以是专用处理器。合适的专用处理器的示例包括但不仅限于，网络处理器、通信处理器、加密处理器、图形处理器、协处理器、嵌入式处理器、数字信号处理器(DSP)以及控制器(例如，微控制器)，仅举数例。此类专用处理器有时还被称为硬件加速器、专用加速器，等等。处理器可以是各种复杂指令集计算(CISC)处理器、各种精简指令集计算(RISC)处理器、各种超长指令字(VLIW)处理器中的任何一种，上述各项的各种混合型，或完全是其他类型的处理器。

处理器具有指令集102。指令集中的指令表示宏指令、汇编语言指令或机器级指令，或其他相对较高层级的指令或控制信号，而不是与上述各项相对的从较高层级的指令或控制信号解码出的微指令、微操作，或其他相对较低层级的指令或控制信号。

在一些实施例中，指令集可包括对于对统一码数据的可变长度的编码方式或代码点转码有用的一条或多条指令103。在一些实施例中，指令103可以任选地包括一条或多条紧缩的可变长度代码点长度确定指令104。紧缩的可变长度代码点长度确定指令104可以具有下文中在图3-5中进一步示出和描述的特性、属性或特征中的任何一个。在一些实施例中，指令103可以任选地包括一条或多条紧缩的可变长度代码点字符位(例如，统一码位)提取指令106。紧缩的可变长度码点字符位(例如，统一码位)提取指令106可以具有下面在图2和6-9中进一步示出和描述的特征、属性，或特点中的任何一个。在某些实施例中，指令103可以可任选地包括一条或多条紧缩的可变长度码点长度确定指令104和一条或多条紧缩的可变长度代码点字符位(例如，统一码位)提取指令106，但是这不是必需的。

处理器还包括紧缩数据寄存器的集合108。紧缩数据寄存器一般表示管芯上或处理器上的存储器位置。紧缩数据寄存器可用于存储紧缩数据、向量数据或SIMD数据。指令集中的指令(例如，紧缩的可变长度代码点长度确定指令104和/或紧缩的可变长度代码点统一码位提取指令106)可以指定紧缩数据寄存器的集合108以标识操作数(例如，源操作数、目的地操作数，等等)。也就是说，紧缩数据寄存器对软件和/或程序员可以是可见的(可能利用寄存器重命名来实现)。此类寄存器有时被称为架构可见的寄存器或架构寄存器。

处理器还包括一个或多个执行单元110。执行单元可用于执行或处理任选的紧缩的可变长度代码点长度确定指令104和/或任选的紧缩的可变长度代码点统一码位提取指令106。在一些实施例中，执行单元可包括用于执行指令104、106的特定逻辑(例如，潜在地与固件和软件中的一个或多个组合的特定电路或其他硬件)。

图2是可变长度的UTF-8代码点的特性表224。最左边的第一列列出了可变长度的UTF-8代码点中的字节的数量。第一行对应于一字节的UTF-8代码点，第二行对应于两字节的UTF-8代码点，第三行对应于三字节的UTF-8代码点，而第四行对应于四字节的UTF-8代码点。将来，在UTF-8中，有可能五字节或者甚至六字节的UTF-8代码点变得更流行。

第二到第四列列出可变长度的UTF-8代码点的字节的格式。从右边的最低有效位的位置到左边的最高有效位的位置示出每一个字节内的格式。例如，一字节的UTF-8代码点的字节1的格式是0xxxxxxx。字节2跟随字节1(即，字节2是更高有效的)，字节3跟随字节2，字节4跟随字节3。对于两字节的UTF-8代码点，字节1的格式是110xxxxx，字节2的格式是10xxxxxx。三字节和四字节的UTF-8代码点的格式如图所示。在这些格式中，作为二进制一(即，1)和零(即，0)的位表示签名位226，而在表示统一码代码点位228的那些位中使用符号“x”。例如，对于两字节的UTF-8格式，字节1的最左边三个最高有效位和字节2的最左边两个最高有效位是签名位，而以“x”表示的所有其他位都是统一码代码点位。

签名位226用于确定UTF-8代码点的长度(例如，它是一字节、两字节、三字节，还是四字节的UTF-8代码点)。例如，签名位可以用于确定输入字节流中的代码点的位置上下文，可以用于确定多字节的UTF-8代码点的组成(component)字节的标识。通过转码，统一码代码点位228可以用于确定由UTF-8代码点编码或表示的对应的统一码字符或值。也就是说，统一码代码点位从一个统一码字符到另一个统一码字符将有所不同。

一字节的UTF-8代码点在位7中具有一个签名位，并且在位[6:0]中具有七个统一码代码点位。两字节的UTF-8代码点在位[7:5]和[15：14]中具有五个签名位，而在位[4:0]和[13:8]中具有十一个统一码代码点位。三字节的UTF-8代码点在位[7:4]、[15:14]和[23:22]中具有八个签名位，而在位[3:0]、[13:8]和[21:16]中具有十六个统一码代码点位。四字节的UTF-8代码点在位[7:3]、[15:14]、[23:22]和[31:30]中具有十一个签名位。四字节的UTF-8代码点在位[2:0]、[13:8]、[21:16]和[29:24]中具有二十一个统一码代码点位。

相应地，UTF-8以及用于对统一码字符编码的其他标准使用可变长度的编码方式或代码点(例如，用可变数量的字节来表示不同的统一码字符)。这些可变长度编码方式或代码点一般表示，处理器需要利用从一个或多个先前字节导出的位置上下文来转码或以其他方式处理字节的这些代码点或流。此特征常常使得使用紧缩操作、向量操作或SIMD操作来执行此转码是困难的。一方面，将UTF-8代码点转码为32位统一码值所需的计算操作或操纵通常随着UTF-8代码点的长度而变化。结果，在SIMD处理期间，通常需要确定并遵守可变长度的代码点(例如，一字节、两字节、三字节和四字节的UTF-8代码点)之间的定界(demarkation)边界。现有的SIMD指令集在验证或确定UTF-8和其他可变长度的编码方式中的代码点的可变长度时一般是不够的。确定不同的代码点的长度的改善的方式(例如，通过专门为此目的设计的诸条单个指令)可以提供优势。此外，利用在将UTF-8或其他可变长度的代码点转码为其他格式所涉及的从一个字节到下一个字节非固定模式的字节间和字节内的位粒度处理一般倾向于难以在紧缩操作、向量操作或SIMD操作中实现。执行在转码期间所涉及的此类异构的字节间和字节内处理的改善的方式(例如，通过为此目的专门设计的诸条单个指令)可以提供优势。

图3是可用于执行或处理紧缩的可变长度代码点长度确定指令的实施例的处理器300的实施例的框图。处理器300可以任选地具有图1的处理器的特性或属性中的任何一种。例如，处理器300可以是通用处理器、专用处理器，可以具有CISC、RISC、VLIW或其他架构，等等。为避免使本描述模糊，将不重复可能相同或类似的这些特点，相反，讨论将倾向于强调图3的处理器的不同的或附加的特征。

处理器300可以接收紧缩的可变长度代码点长度确定指令304。例如，可从指令取出单元、指令队列等接收指令。指令可表示宏指令、机器代码指令、汇编语言指令或处理器的指令集的其他指令或控制信号。指令可以具有操作代码或操作码。操作码可以表示用于标识要被执行的指令和/或操作(例如，紧缩的可变长度代码点长度确定操作)的多个位或一个或多个字段。如下文中将进一步解释的那样，指令也可以具有用于指定一个或多个源和/或目的地操作数的位或一个或多个字段。

所示出的处理器包括指令解码单元312。指令解码单元也可以被称为解码单元或解码器。解码单元可以接收并解码相对较高层级的指令或控制信号(例如，宏指令、机器代码指令、汇编语言指令，等等)，并输出反映、表示和/或导出于较高层级的指令或控制信号的一个或多个微指令、微操作、微代码入口点、或其他相对较低层级的指令或控制信号。一个或多个较低层级的指令或控制信号可通过一个或多个较低层级(例如，电路级或硬件级)的操作来实现较高层级的指令或控制信号。可以使用各种不同的机制、逻辑，或集成电路来实现解码单元，各种不同的机智、逻辑或集成电路包括但不仅限于，微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)以及本领域已知的用于实现解码单元的其他机制、逻辑或集成电路。

在其他实施例中，可以使用指令仿真器、变换器、变形器、解释器，或其他指令转换逻辑。各种不同类型的指令转换逻辑是本领域中已知的，并可以在软件、硬件、固件，或它们的组合中实现。指令转换逻辑可以接收指令，并将该指令仿真、变换、变形、解释或以其他方式转换为一个或多个对应的导出的指令或控制信号。在其他实施例中，可以使用指令转换逻辑和解码单元两者。例如，处理器可以具有用于将接收到的机器代码指令转换为一条或多条中间指令的指令转换逻辑，以及用于将这一条或多条中间指令解码为可由处理器的原生硬件(例如，执行单元)执行的一个或多个较低层级的指令或控制信号的解码单元。指令转换逻辑中的一些和/或全部可以位于处理器外，诸如例如，在分开的管芯上和/或在存储器中。

处理器300还包括紧缩数据寄存器的集合308。紧缩数据寄存器中的每一个都可以表示用于存储紧缩数据、向量数据或SIMD数据的管芯上的存储位置。紧缩数据寄存器可以使用公知技术，在不同的微架构中以不同的方式来实现，并且不限于任何特定类型的电路。各种不同类型的寄存器都是合适的。合适类型的寄存器的示例包括但不限于，专用物理寄存器、使用寄存器重命名的动态地分配的物理寄存器、以及上述的组合。

再次参考图3，执行单元310与解码单元312耦合，并与紧缩数据寄存器308耦合。作为示例，执行单元可包括用于执行逻辑和/或算术逻辑操作的功能单元、逻辑单元、算术逻辑单元、数字电路，等等。执行单元可以接收表示和/或导出于紧缩的可变长度代码点长度确定指令304的一个或多个经解码或以其他方式经转换的指令或控制信号。执行单元和/或处理器可包括专用或特定的逻辑(例如，可能与固件和/或软件组合的电路或其他硬件)，该专用或特定的逻辑可用于：响应于和/或由于紧缩的可变长度代码点长度确定指令(例如，响应于从紧缩的可变长度代码点长度确定指令解码或以其他方式导出的一个或多个指令或控制信号)来执行紧缩的可变长度代码点长度确定操作。

在一些实施例中，紧缩的可变长度代码点长度确定指令304可以显式地指定(例如，通过一个或多个字段或位组)，或以其他方式指示(例如，隐式地指示)第一源紧缩数据314。第一源紧缩数据可以具有至少两个统一码字符的紧缩的可变长度代码点314。在一个特定实施例中，第一源紧缩数据可以具有包括一字节、两字节、任选的三字节和任选的四字节的代码点的统一码字符的连续的可变UTF-8代码点或编码方式的流的一部分，但是本发明的范围不如此限制。

在一些实施例中，紧缩的可变长度代码点长度确定指令可以任选地显式地指定或以其他方式指示第二源紧缩数据316，但是这不是必需的。第二源紧缩数据可以具有针对不同的可变长度的代码点的至少两个紧缩签名模式。或者，可任选地将两个或更多个签名模式存储在管芯上的非易失性存储器(诸如例如，管芯上的只读存储器(ROM))中，而不是指令需要指示具有这两个或更多个紧缩签名模式的第二源紧缩数据。在一些实施例中，对于第一源紧缩数据314中的每一个不同的可能的长度代码点，可以有不同的签名模式。在一些实施例中，取决于特定的编码方式，在第一源紧缩数据314中可以有至少两个、任选的三个或任选的四个或更多个不同的签名模式，并且每一个签名模式都对应于第一源紧缩数据314中可能的不同的可变长度的代码点。这些签名模式可以基本上是预定值或固定值。

在使用UTF-8的一个特定示例实施例中，对于一字节的UTF-8代码点，可以有一字节的UTF-8签名模式；对于两字节的UTF-8代码点，可以有两字节的UTF-8签名模式；可任选地，对于三字节的UTF-8代码点，可以有三字节的UTF-8签名模式；并且可任选地，对于四字节UTF-8代码点，可以有四字节的UTF-8签名模式，但是本发明的范围不如此限制。签名位的模式可以任选地与上文中对于图2所示和所描的那些模式类似。例如，用于一字节的UTF-8代码点的签名模式可以在位7中具有一个签名位，用于两字节的UTF-8代码点的签名模式可以在位[7:5]和[15：14]中具有五个签名位，用于三字节的UTF-8码点的签名模式可以在位[7:4]、[15：14]和[23:22]中具有八个签名位，并且用于四字节的UTF-8代码点的签名模式可以在位[7:3]、[15：14]、[23:22]和[31:30]中具有十一个签名位。

下面的表1列出对于一字节到四字节的UTF-8代码点的、以二进制以及十六进制表示法来表示的合适的签名模式的示例。

表1用于UTF-8代码点的签名模式

在一些实施例中，紧缩的可变长度代码点长度确定指令304可以任选地具有立即数318，但是这不是必需的。对于不同的可变长度码点(例如，第二源紧缩的数据316中的)，该立即数可以具有针对不同的可变长度的代码点的签名模式(例如，第二源紧缩操作数316中的针对不同的可变长度的代码点的签名模式)的长度。这些长度中的每一个长度都可以对应于这些签名模式中不同的签名模式。例如，长度可包括或指示对应于一字节签名模式的一字节长度、对应于两字节签名模式的两字节长度，任选的对应于三字节签名模式的三字节长度，以及任选的对应于四字节签名模式的四字节长度。在其他实施例中，对于特定实现，可能需要仅两个或仅三个不同的长度。或者，在其他实施例中，可以任选地以其他方式提供签名模式的这些长度，诸如例如，存储在管芯上的ROM中或其他管芯上的非易失性存储器中，而不是指令需要具有该立即数。作为另一选项，可以任选地由另一显式地指定或隐式地指示的源操作数来提供(例如，通过隐式寄存器来提供)这些长度。

在一些实施例中，紧缩的可变长度代码点长度确定指令可以任选地显式地指定或以其方式指示目的地320(例如，目的地存储位置)，响应于指令304，将会将结果紧缩数据存储在该目的地320中。在一些实施例中，结果紧缩数据可包括统一码字符的经验证的可变长度代码点或编码方式的紧缩的长度321。

在一些实施例中，执行单元可以判断来自统一码字符的紧缩的可变长度代码点315的数据片段是否匹配针对不同长度的代码点317的不同签名模式中的任何一个签名模式。例如，执行单元可以将来自统一码字符的紧缩的可变长度UTF-8代码点的第一字节与一字节的UTF-8签名模式317比较，可以将来自统一码字符的紧缩的可变长度UTF-8代码点的前两个字节与两字节的UTF-8签名模式317比较。在一些实施例中，执行单元也可以任选地将来自统一码字符的紧缩的可变长度UTF-8代码点的前三个字节与三字节的UTF-8签名模式317比较，还可以进一步任选地将来自统一码字符的紧缩的可变长度UTF-8代码点的前四个字节与四字节的UTF-8签名模式317比较。

如果在某点处有存在匹配，则可以推断，已适当地确定了来自第一源数据314的可变长度的UTF-8或其他可变长度代码点的长度。本领域中有时将此称为验证代码点。在一些实施例中，随后，执行单元可以将针对可变长度的UTF-8或其他代码点已验证或以其他方式确定的长度存储在目的地320中的对应位置中。例如，来自第一源314的连续的前三字节段匹配来自第二源316的三字节签名模式，则可以在目的地中的对应的位置中存储或以其他方式指示值3，以便指示对应的代码点是三字节代码点。可以重复此过程以生成结果，该结果包括能够在第一源314中经验证或以其他方式确定的统一码字符的所有经验证的可变长度码点的紧缩的长度321。

如图所示，在一些实施例中，第一源紧缩数据314、第二源紧缩数据316和目的地320中的每一个都可以表示不同的紧缩数据寄存器。或者，可将存储器位置或其他存储位置用于这些操作数中的一个或多个。例如，可转而将统一码字符的紧缩的可变长度代码点存储在存储器位置中。此外，源和/或目的地操作数中的一个或多个对于指令可以是隐式的，而不是被显式地指定。作为另一选项，可以可选地将源操作数中的一个重新用作目的地操作数，并且可对源紧缩数据写入结果紧缩数据。虽然在一些情况下，保留源紧缩数据可能是期望的。

为避免使描述模糊，已示出和描述了相对简单的处理器300。在其他实施例中，处理器可以可选地包括在处理器中发现的其他公知组件。此类组件的示例包括但不仅限于，分支预测单元、指令取出单元、指令和数据高速缓存、指令和数据转换后备缓冲器、预取缓冲器、微指令队列、微指令定序器、寄存器重命名单元、指令调度单元、总线接口单元、第二级或更高级的高速缓存、引退单元、处理器中所包括的其他组件，以及上述各项的各种组合。实际上，在处理器中存在很多不同的组合和配置，并且各实施例不仅限于任何特定组合或配置。各实施例可以被包括在具有多个核、逻辑处理器或执行引擎的处理器中，上述各项中的至少一项具有用于执行本文中所公开的指令的实施例的执行逻辑。

图4是针对可变长度的UTF-8代码点的合适的紧缩的可变长度代码点长度确定操作430的示例实施例的框图。可由处理器或其他指令处理设备响应于和/或由于紧缩的可变长度代码点长度确定指令的各实施例来执行该操作。

指令可以指定或以其他方式指示紧缩的UTF-8代码点415。例如，紧缩的UTF-8代码点可以在由指令指定或以其他方式指示的紧缩数据寄存器中或存储器位置中。在所示实施例中，紧缩的UTF-8代码点为128位宽。在其他实施例中，可以任选地使用其他宽度，诸如例如，64位、256位、1024位，或某个其他宽度。128位足以容纳十六个字节。这十六个字节能够存储可变数量的可变长度UTF-8代码点(例如，各自具有一字节到四字节长度的UTF-8代码点)。在所示示例中，位[23:0]中的最低阶的三个字节存储欧元货币符号(€)的3字节UTF-8代码点431。位[31:24]中的第四字节存储美元符号($)的1字节UTF-8代码点432。位[47:32]中的第五和第六字节存储美分符号(￠)的2字节UTF-8代码点433。位[71:48]中的第七到第九字节还存储欧元货币符号的3字节UTF-8代码点434。位[127：112]中的第十五以及第十六字节存储欧元货币符号的3字节UTF-8码点435的三个字节中的不完整的两个字节。其余的第三字节不能在128位紧缩数据操作数的宽度限制内匹配，因此，仅该符号的不完整部分存在(例如，在128位寄存器中)。

指令可以指定或以其他方式指示针对不同长度的UTF-8代码点的紧缩签名模式417。在一些实施例中，指令可以指定具有这些紧缩签名模式的寄存器或其他存储位置。在其他实施例中，可将这些紧缩签名模式存储在ROM中或其他管芯上的非易失性存储器中。在所示实施例中，示出四种不同的签名模式。具体而言，用于一字节UTF-8代码点的第一签名模式436存储在最低阶的32位双字位[31:0]中；用于两字节UTF-8代码点的第二签名模式437存储在紧邻最低阶的32位双字的位[63:32]中；用于三字节UTF-8代码点的第三签名模式438存储在紧邻最高阶的32位双字的位[95:64]中；而用于四字节UTF-8代码点的第四签名模式439存储在最高阶的32位双字位[127:96]中。第一签名模式可以被零扩充，并可以在其最低阶的字节中具有值“00000000”。第二签名模式可以被零扩充，并可以在其最低阶的两个字节中具有值“1000000011000000”。第三签名模式可以被零扩充，并可以在其最低阶的三个字节中具有值“100000001000000011100000”。第四签名模式可以被零扩充，并可以在其最低阶四个字节中具有值“10000000100000001000000011110000”。这些签名模式也可以任选地以任何其他顺序来安排在操作数内。在其他实施例中，也可以使用少至两个不同的签名模式(例如，如果将仅使用一字节和两字节的UTF-8代码点，但不使用三字节或四字节的UTF-8码点)。注意，在相同字节长度的UTF-8代码点415的相同的相对位的位置中也发现签名模式417中的置位(setbit)(即，诸个二进制一)。例如，用于两字节UTF-8代码点437的签名模式仅在位[15：14]和[7]中具有置位，而用于美分符号433的两字节UTF-8代码点也在位[15：14]和[7]中具有置位。

在一些实施例中，指令可以指定或以其他方式指示签名模式419的长度。在此实施例中，这些签名模式的长度是一字节、两字节、三字节和四字节。在一些实施例中，指令可以具有用于提供这些长度的立即数。例如，在一个实施例中，立即数可以是具有四个2位字段的8位立即数，其中每一个字段都指示这些长度中的一个长度。在某些实施例中，可以使用所谓的“+1”约定，其中，可以使用立即数中的值零来指示1字节、可以使用值一来指示2字节，可以使用值二来指示3字节，并可以使用值三来指示4字节，但是这不是必需的。这些值也可以任选地按任何其他顺序被安排在立即数内，只要每一个值都逻辑地对应于相应的签名模式。在另一个实施例中，可以由4位立即数中的两个2位字段来指示两个不同的长度。在其他实施例中，可以任选地将这些长度存储在ROM中或其他管芯上的非易失性存储器中，而不是通过立即数来提供这些长度。

响应于和/或由于该指令，处理器可以将来自紧缩的UTF-8代码点415的字节与用于不同长度的UTF-8代码点417的不同的紧缩签名模式进行比较。例如，可以将紧缩的UTF-8代码点415的位[7:0]中的第一字节与用于1字节UTF-8代码点的签名模式436进行比较，并且可以确定它们不匹配。随后，可以将紧缩的UTF-8码点415的位[15:0]中的第一个2字节与用于2字节UTF-8代码点的签名模式437进行比较，并可以确定它们不匹配。随后，可以将紧缩的UTF-8代码点415的位[23:0]中的第一个3字节与用于3字节UTF-8代码点的签名模式438进行比较，并且可以确定它们不匹配。换言之，可以确定签名模式438中的所有置位(即，二进制一)也是3字节UTF-8代码点431中的置位(即，二进制一)。也可以确定，表示用于美元符号的1字节UTF-8代码点432的紧缩的UTF-8代码点415的位[31:24]匹配用于1字节UTF-8代码点的签名模式436。也可以确定，表示用于美分符号的2字节UTF-8代码点433的紧缩的UTF-8代码点415的位[47-32]匹配用于2字节UTF-8代码点的签名模式437。也可以确定，表示用于欧元货币符号的3字节UTF-8代码点434的紧缩的UTF-8代码点415的位[71:48]匹配用于3字节UTF-8代码点的签名模式438。上文的描述描述了用于执行这些比较的特定顺序，但是应当理解，可以任选地以任何其他所期望的顺序来执行这些比较，并且可以串行地、并行地、或部分串行地并部分并行地来执行这些比较。

UTF-8代码点匹配签名模式的此类确定表示了确定UTF-8代码点的长度的实施例。表示UTF-8代码点的长度的值可以存储在经验证的UTF-8代码点421的紧缩长度中。例如，如图所示，这可包括存储以下值：指示对应于欧元符号的第一次出现的3字节UTF-8代码点431的3字节的长度440的值、指示对应于美元符号的1字节UTF-8代码点432的1字节的长度441的值、指示对应于美分符号的2字节UTF-8代码点433的2字节的长度442的值以及指示对应于欧元货币符号的第二次出现的3字节UTF-8代码点434的3字节的长度443的值。如图所示，在一些实施例中，可以可选地将表示这些长度的值存储在对应的UTF-8代码点的最低阶字节的相同的相对字节位置中，并且可以可选地将全零存储在对应的UTF-8代码点的任何更高有效的字节的相同的相对字节位置中，但是这不是必需的。在其他实施例中，可以任选地使用其他约定。有利的是，此格式倾向于很好地适于可变长度的编码方式。如果相对更多的较小代码点(例如，1字节代码点)被包括在输入流(即，第一源)中，则更多的长度可以存储在目的地中。例如，十六个对应的1字节字符(例如，ASCII字符的UTF-8代码点)的多至十六个长度可以存储在目的地中。

在图4中，已示出并描述了UTF-8代码点的字节安排的特定顺序。然而，在操作数或寄存器中组织或安排字节的其他方式也是可能的。安排UTF-8代码点的字节的任何已知的常规方式都是合适的。

图5是在处理紧缩的可变长度代码点长度确定指令的实施例时由处理器执行和/或在处理器内执行的方法550的实施例的流程框图。在一些实施例中，图5的操作和/或方法可以由图1和/或图3的处理器执行和/或可以在图1和/或图3的处理器内执行。本文中针对图1和/或图3的处理器所描述的的组件、特征和特定的任选细节还任选地适用于图5的操作和/或方法，在各实施例中，可以由此类处理器执行和/或在此类处理器内执行图5的操作和/或方法。或者，可以由类似或不同的处理器或其他设备执行和/或在在类似或不同的处理器或其他设备内执行图5的操作和/或方法。此外，图1和/或图3的处理器可以执行与图5的那些操作和/或方法相同、类似，或不同的操作和/或方法。

该方法包括：在框551处，接收紧缩的可变长度代码点长度确定指令。在各个方面，可在处理器或处理器的部分(例如，指令取出单元、解码单元等)处接收该指令。在各方面，可以从管芯外的源(例如，从主存储器、盘或互连)或从管芯上的源(例如，从指令高速缓存)接收该指令。在一些实施例中，紧缩的可变长度代码点长度确定指令可以显式地指定或以其他方式指示第一源紧缩数据，并且可以显式地指定或以其他方式指示目的地存储位置，其中，第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。

在框552处，响应于和/或由于紧缩的可变长度代码点长度确定指令，可将结果紧缩数据存储在所指示的目的地存储位置中。在一些实施例中，结果紧缩数据可包括多个紧缩的可变长度代码点中的每一个的长度。在一些实施例中，结果紧缩数据可以具有图3的紧缩长度321和/或图4的紧缩长度421的先前所描述的特性中的任何特性。

为进一步说明某些概念，利用助记符VPVLNCPCLSFL来考虑紧缩的可变长度代码点长度确定指令的详细示例实施例。指令的格式可以是VPVLNCPCLSFLDEST，SRC1，SRC2，IMM8。DEST可以表示128位宽的目的地紧缩数据寄存器。SRC1可以表示第一源128位宽的紧缩数据寄存器或存储器位置。SRC2可以表示第二源128位宽的紧缩数据寄存器。IMM8可以表示8位立即数。

SRC1可以存储表示经UTF-8编码的字节序列的UTF-8流的块。SRC2可以存储对应于UTF-8编码格式的多至四个不同的签名模式，该UTF-8编码格式针对多至UTF-8代码点的四个不同的长度(例如，一字节、两字节、三字节和四字节)中的每一个长度。例如，可将这四个不同的签名模式中的每一个签名模式存储在不同的32位双字数据元素中。IMM8可包括四个2位字段。每一个2位字段都可以表示对应的签名模式的长度编码方式，例如，以“1+”约定来表示，其中，将1加到经编码的长度来确定实际字节长度。上述指令的另一实施例可以省略第二源操作数SRC2和立即数IMM8，并且可替代地通过ROM或其他管芯上的非易失性存储器来提供签名模式以及这些签名的的对应长度。

指令可以被用来验证并确定来自SRC1的每一个经验证的UTF-8代码点的字节长度，并标识SRC1中的第一个不完整的UTF-8代码点的偏移。此偏移对于确定要处理的下一个UTF-8块的开始可能是有用的(例如，利用后续指令)。可以将来自SRC1的每一个代码点与来自SRC2的对应于不同长度的至少两个且多至四个不同的签名模式进行比较。如果来自SRC1的代码点匹配来自SRC2的签名模式，则DEST的前导字节位置可以存储代码点的所确定的长度(例如，一、二、三或四)，该长度等于签名模式长度，并且从IMM8中获悉。如果代码点的所确定的长度大于1，则可以将全零(例如，00000000)填充在DEST中的代码点的之后其余的字节中的每一个字节中。

在一些实施例中，如果SRC2中的四个签名模式中没有一个匹配SRC1中的代码点，则可以任选地以全1(例如，11111111)来写入DEST中的代码点的对应前导字节。这是任选的，但是可有助于标记或指示无效的或未经验证的代码点。这还有助于标识(例如，将由后续指令处理的)SRC1中的第一个不完整的和/或无效的UTF-8代码点的偏移。例如，在Intel架构(IA)处理器中，可以通过PMOVMSKB指令的使用来实现此类标识。例如，可以检查PMOVMSKB的结果，并且PMOVMSKB的结果的最低有效的置位可以指示SRC1中的第一个不完整的和/或无效的UTF-8代码点的偏移。如果对DEST执行的PMOVMSKB的结果是零，则可将输入UTF-8流的所有16个字节视为有效代码点。或者，在此类情况下，除全1(例如，11111111)之外，还可将某个其他合适的经认可的值存储在DEST中。在其他实施例中，可以任选地使用更宽或更窄的寄存器。例如，在各实施例中，可将64位、256位、512位或1024位寄存器用于SRC1和/或SRC2和/或DEST。

下面的伪代码表示合适的紧缩的可变长度代码点长度确定指令的另一示例实施例。在此伪代码中，Src1表示具有UTF-8代码点块或序列的第一源，Src2表示具有用于一字节到四字节UTF-8代码点的四个签名的第二源操作数，Imm表示8位立即数，而Dest表示目的地。ZeroExt32表示对32位函数的零扩展。

//下表描述了用于标识UTF-8代码点的签名UTF_validate_op与签名掩码的细节：

图6是可用于执行或处理紧缩的可变长度代码点字符位(例如，统一码位)提取指令606的实施例的处理器600的实施例的框图。处理器600可以任选地具有图1的处理器100和/或图3的处理器300的特性或属性中的任何特性或属性。例如，处理器600可以是通用处理器、专用处理器，可以具有CISC、RISC、VLIW或其他架构，解码单元可以相同或类似的，等等。为避免使描述模糊，将不重复可能相同或类似的这些特征，相反，讨论将倾向于强调图6的处理器600的不同或附加的特征。

处理器600可以接收紧缩的可变长度代码点字符位(例如，统一码位)提取指令606。要被提取的统一码位表示可变长度编码方式中对统一码字符或值有贡献的那些位(例如，可以仅基于要被提取的统一码位的完整集合来确定统一码字符)。统一码位表示要被提取的字符或数据位的实施例，并且其他实施例不限于统一码位。指令可以具有可用于标识要被执行的指令和/或操作(例如，紧缩的可变长度代码点统一码位提取操作)的操作代码或操作码。所示出的处理器包括指令解码单元612，其可以与解码单元312类似或相同。如先前所描述，还可以任选地使用指令转换逻辑。处理器600还包括紧缩数据寄存器的集合608，其可以与紧缩数据寄存器308类似或相同。执行单元610与解码单元312耦合，并与紧缩数据寄存器308耦合。执行单元610可以与执行单元310类似或相同。执行单元和/或处理器可包括用于响应于和/或由于指令606(例如，响应于从指令606解码出或以其他方式导出的一个或多个指令或控制信号)来执行紧缩的可变长度代码点统一码位提取操作的专用或特定逻辑(例如，可能与固件和/或软件组合的电路或其他硬件)。

在一些实施例中，紧缩的可变长度代码点字符位(例如，统一码位)提取指令304可以显式地指定(例如，通过一个或多个字段或位组)或以其他方式指示(例如，隐式地指示)第一源紧缩数据614。第一源紧缩数据可以具有至少两个统一码字符的紧缩的可变长度代码点615。在一个特定实施例中，第一源紧缩数据可以具有用于统一码字符的连续的可变UTF-8代码点或编码方式的流的部分，包括一字节代码点、两字节代码点、任选的三字节代码点，以及任选的四字节代码点，但是本发明的范围不如此受限。在一些实施例中，紧缩的可变长度代码点615可以与由图3的紧缩的可变长度代码点长度确定指令使用的紧缩的可变长度代码点315类似或相同。例如，可以首先由图3的指令304处理代码点的相同序列，然后可以由图6的指令606处理。

在一些实施例中，紧缩的可变长度代码点字符位(例如，统一码位)提取指令可以显式地指定或以其他方式指示第二源紧缩数据616。在一些实施例中，第二源紧缩数据可以具有两个或更多个统一码字符的经验证的可变长度代码点的紧缩长度621。例如，在一些实施例中，统一码字符621的经验证的可变长度代码点的紧缩长度可以存储两个或更多个值，这两个或更多个值将两个或更多个对应的UTF-8代码点的长度指示为1字节、2字节，或任选的3字节或4字节(例如，在使用3字节或者4字节UTF-8代码点的各实施例中)。例如，在使用UTF-8的实施例中，统一码字符的经验证的可变长度代码点的紧缩长度621可以存储：用于指示表示欧元符号的对应的UTF-8代码点的3字节长度的值(例如，3)、用于指示表示美元符号的对应的UTF-8代码点的1字节长度的值(例如，1)，等等。

在一些实施例中，紧缩长度621可以表示响应于紧缩的可变长度代码点字符位(例如，统一码位)提取指令104的实施例而被存储的结果。也就是说，在一些实施例中，指令104的结果可以由指令606用作源操作数。例如，在一些实施例中，紧缩长度621可以与图3的紧缩长度321和/或图4的紧缩长度421类似或相同。针对紧缩长度321和/或紧缩长度421所描述的特征和特性中的任何特征和特性还可任选地适用于紧缩长度621。或者，替代地可以任选地使用字符的经验证的可变长度码点的其他类型的紧缩长度，并且该其他类型的紧缩长度不限于由紧缩的可变长度代码点长度确定指令104生成。一些实施例不限于统一码字符，相反，可以使用其他字符或标准。一些实施例不限于UTF-8，而相反还可以使用除UTF-8之外的其他可变长度编码方式。

在一些实施例中，紧缩的可变长度代码点统一码位提取指令606可以任选地显式地指定或以其他方式指示目的地620(例如，目的地存储位置)，响应于指令606而将结果紧缩数据存储在该目的地620。作为另一选项，可将这些源中的一个源重新用作目的地，并且可以由结果来覆写该源数据。在一些实施例中，可将所提取的统一码位的紧缩集合660存储在目的地中。紧缩的所提取的统一码位中的每一个集合都可以对应于来自第一源614的不同的对应的可变长度代码点。所提取的统一码位中的每一个集合都可包括或表示来自对应的可变长度代码点的、对统一码值或其他字符/符号值有贡献的那些位。所提取的统一码位的集合单独地可能足以确定统一码值或对统一码值转码。在一些实施例中，可以通过从对应的可变长度代码点中逻辑地减去或以其他方式去除签名位来提取统一码位，但是本发明的范围不如此受限。例如，可以使用一个或多个逻辑操作来从对应的可变长度代码点中去除签名模式。在一些实施例中，前描述签名模式中的任何一个签名模式都可以用于此目的。在其他实施例中，可例如由多路复用器等来执行位级(bitlevel)位操作，而无需此类逻辑操作。应当理解，提取过程能以各种不同的方式来移动、重新安排、重组、串联或以其他方式操纵所提取的统一码位，只要用于处理所提取的统一码位的指令和/或指令集能够理解并使用此类操纵。不作为限制，后续地可以由一条或多条其他指令处理所提取的统一码位的这些紧缩集合以将它们转换为统一码值或其他字符格式。

如图所示，在一些实施例中，第一源紧缩数据614、第二源紧缩数据616和目的地620中的每一个都可以表示不同的紧缩数据寄存器。或者，存储器位置或其他存储位置可以用于这些操作数中的一个或多个。例如，替代地可以任选地将统一码字符的紧缩的可变长度代码点存储在存储器中的存储器位置中。此外，源和/或目的地操作数中的一个或多个可以任选地对指令是隐式的，而不是被显式地指定。作为另一选项，可以可选地将第一和第二源操作数中的一个重新用作目的地操作数，并且可对源紧缩数据写入结果紧缩数据。

在一些实施例中，还可以任选地响应于和/或由于紧缩的可变长度代码点统一码位提取指令606来存储所提取的代码点的数量664，但是这不是必需的。所提取的代码点的数量可以表示第一源操作数614中为其提取了统一码位的经验证的代码点的总数量。例如，如果第一源操作数具有十六个经验证的1字节代码点，则所提取的码点的数量也可以是十六个。在一些实施例中，指令可以显式地指定或隐式地指示第二目的地662，将会将所提取的代码点的数量664存储在该第二目的地662中。例如，在一个实施例中，指令可以隐式地指示通用寄存器，但是本发明的范围不如此受限。

图7是用于UTF-8代码点的合适的紧缩的UTF-8代码点统一码位提取操作766的示例实施例的框图。可以由处理器或其他指令处理设备响应于和/或由于紧缩的UTF-8代码点统一码位提取指令的示例实施例来执行该操作。

指令可以指定或以其他方式指示紧缩的UTF-8代码点715。例如，紧缩的UTF-8代码点可以在由该指令指定或以其他方式指示的紧缩数据寄存器或存储器位置中。在所示实施例中，紧缩的UTF-8代码点操作数为128位宽。在其他实施例中，可以任选地使用其他宽度，诸如例如，64位、256位、1024位，或某个其他宽度。128位宽度具有十六个字节。取决于实现，这十六个字节能够存储可变数量的可变长度UTF-8代码点，例如，各自具有从一字节到两字节，一字节到三字节，或一字节到四字节的UTF-8代码点。在所示示例中，在位[23:0]中的最低阶的三个字节存储用于欧元货币符号(€)的3字节UTF-8代码点731。在位[31:24]中的第四字节存储用于美元符号($)的1字节UTF-8代码点732。在位[47:32]中的第五和第六字节存储用于美分符号(￠)的2字节UTF-8代码点733。在位[71:48]中的第七到第九字节还存储用于欧元货币符号的3字节UTF-8代码点734。在位[127：112]中的第十五和第十六字节存储用于欧元货币符号的3字节UTF-8代码点735的三个字节中的不完整的两个字节。其余的第三个字节不能在操作数的128位宽度限制内匹配，因此，仅该符号的不完整的部分存在(例如，在128位寄存器中)。当然，这些纯粹是代码点的示例性类型。

指令也可以指定或以其他方式指示经验证的UTF-8代码点的紧缩长度721。在所示实施例中，紧缩的UTF-8代码点操作数也是128位宽的。在其他实施例中，可以任选地使用其他宽度，诸如例如，64位、256位、1024位，或某个其他宽度。所示出的紧缩长度721具有以下值：指示对应于欧元符号的第一次出现的3字节UTF-8代码点731的3字节长度740的值、指示对应于美元符号的1字节UTF-8代码点732的1字节长度741的值、指示对应于美分符号的2字节UTF-8代码点733的2字节长度742的值，以及指示对应于欧元货币符号的第二次出现的3字节UTF-8代码点734的3字节长度743的值。如图所示，在一些实施例中，可以任选地将表示这些长度的值存储在对应的UTF-8代码点的最低阶字节的相同的相对字节位置中，并且可以可选地将全零存储在对应的UTF-8代码点的任何更高有效字节的相同的相对字节位置中，但是这不是必需的。在其他实施例中，可以任选地使用其他约定(例如，可以将零存储在最低有效字节中，而将长度存储在最高有效字节中，等等)。注意，在一些实施例中，在紧缩长度721中使用与用于紧缩的UTF-8代码点715中的对应代码点同数量的字节(例如，每一个代码点中三个字节，每一个代码点中两个字节，等等)。

响应于和/或由于紧缩的UTF-8代码点统一码位提取指令，可将所提取的统一码位的紧缩集合760存储在指定的或以其他方式指示的目的地中。如图所示，在一些实施例中，目的地操作数可以是512位宽的操作数(例如，512位宽的寄存器、两个256位宽的寄存器、四个128位宽的寄存器，等等)。在其他实施例中，可以任选地使用其他宽度。紧缩的所提取的统一码位中的每一个集合都可以对应于来自紧缩的UTF-8代码点715的不同的对应的可变长度代码点。所提取的统一码位中的每一个集合都可包括或表示来自对应的可变长度代码点的、对统一码值或其他字符/符号值有贡献的那些位。所提取的统一码位的集合单独地可能足以确定统一码值或对统一码值转码。在一些实施例中，可以通过从对应的可变长度代码点中逻辑地减去或以其他方式去除签名位和/或模式来提取统一码位，但是本发明的范围不如此受限。例如，在一些实施例中，指令可以指示两个或更多个签名模式，可以基于来自紧缩长度721的对应的长度信息来选择合适的签名模式，并且可以使用一个或多个逻辑操作来从对应的可变长度代码点中去除所选择的签名模式。先前所描述的签名模式是合适的。在一些实施例中，多个签名模式可以存储在ROM中或其他管芯上的非易失性存储器中。或者，指令可以指定或指示具有多个签名模式的操作数。在其他实施例中，位级的位提取可例如通过线、多路复用器等是硬连线的，而不使用此类签名模式。

再次参考图7，所提取的统一码位760的紧缩集合包括：在位[31:0]中的、对应于欧元符号的第一实例的3字节UTF-8代码点731的所提取的统一码位的第一集合767，以及在位[63:32]中的、对应于美元符号的1字节UTF-8代码点732的所提取的统一码位的第二集合768。所提取的统一码位的集合还包括：在位[95:64]中的、对应于美分符号的2字节UTF-8代码点733的所提取的统一码位的第三集合769，以及在位[127:96]中的、对应于欧元符号的第二实例的3字节UTF-8代码点734的所提取的统一码位的第四集合770。在示图中，使用下划线示出已经从所提取的统一码位的紧缩集合731中去除了按其在紧缩的UTF-8代码点715中所呈现的签名位或签名模式。也就是说，加下划线的置位(即，二进制1)已经被转换为加下划线的清除位(clearedbit)(即，二进制零)。如果在紧缩的UTF-8代码点715中有其他有效的UTF-8代码点，则也可以包括所提取的统一码位的其他集合。例如，如果紧缩的UTF-8代码点715包括十六个1字节UTF代码点，则可存储所提取的统一码位的多至十六个集合，每一个集合被存储在512位目的地操作数的32位双字元素中。如图所示，在一些实施例中，目的地操作数的其余宽度可以存储无效值，该无效值可以是被相关标准识别为保存无效值或无效数据的任何预定值(例如，不是经识别的统一码字符值)。

图8是示出在可以由紧缩的可变长度代码点统一码位提取指令/操作的实施例使用的紧缩数据元素中安排或排序所提取的统一码位的集合的合适方式的框图。示出了用于欧元符号的3字节UTF-8代码点831。在一些实施例中，可以在紧缩结果和/或目的地操作数的数据元素中以小端字节序(littleendianorder)872安排或排序所提取的统一码位的对应集合。这与上文中针对图7所示出和描述的方法类似。或者，在一些实施例中，可以在紧缩结果和/或目的地操作数的数据元素中以大端字节序(bigendianorder)874安排或排序所提取的统一码位的对应集合。在一些实施例中，此类方法可通过以最适于某些指令的格式安排而有助于促进后续处理。然而，此方法不是必需的。

图9是在处理紧缩的可变长度代码点统一码位提取指令的实施例时由处理器执行和/或在处理器内执行的方法978的实施例的流程框图。在一些实施例中，图9的操作和/或方法可以由图1和/或图6的处理器执行和/或在图1和/或图6的处理器内执行。本文中针对图1和/或图6的处理器所描述的组件、特征和特定的任选细节还任选地使用于图9的操作和/或方法，在各实施例中，可以由此类处理器执行和/或在此类处理器内执行图9的操作和/或方法。或者，图9的操作和/或方法可以由类似或不同的处理器或其他设备执行和/或在类似或不同的处理器或其他设备内执行。此外，图1和/或图6的处理器可以执行与图9的那些操作和/或方法相同、类似或不同的操作和/或方法。

方法包括：在框979处，接收紧缩的可变长度代码点字符位提取指令。在各个方面，该指令可在处理器或者处理器的部分(例如，指令取出单元、解码单元等)处接收。在各方面，可以从管芯外的源(例如，从主存储器、盘或互连)或从管芯上的源(例如，从指令高速缓存)接收指令。在一些实施例中，紧缩的可变长度代码点字符位提取指令可以显式地指定或以其他方式指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。指令也可以显式地指定或以其他方式指示第二源紧缩数据，该第二源紧缩数据具有来自第一源紧缩数据的经验证的可变长度代码点的紧缩长度。指令也可以显式地指定或以其他方式指示目的地存储位置。这包括：在一些情况下，将这些源中的一个源重新用作目的地。

在框980处，可以响应于和/或由于紧缩的可变长度代码点字符位提取指令而将结果紧缩数据存储在所指示的目的地存储位置中。在一些实施例中，结果紧缩数据可以具有所提取的字符位的紧缩集合。所提取的字符位的每一个集合都可以对应于来自第一源紧缩数据的经验证的可变长度代码点的不同集合。在一些实施例中，所提取的字符位的每一个集合可能足以确定由可变长度代码点表示的字符。在一些实施例中，结果紧缩数据可以与图6的所提取的位的紧缩集合660和/或图7的所提取的位的紧缩集合760类似或相同，或者结果紧缩数据可以任选地具有图6的所提取的位的紧缩集合660和/或图7的所提取的位的紧缩集合760的特性或特征中的任何特性或特征。

为进一步说明某些概念，利用助记符VPVLNEXTRD来考虑紧缩的UTF-8代码点统一码位提取指令的详细示例实施例。指令的格式可以是VPVLNEXTRDDEST，SRC1，SRC2。DEST可以表示512位宽的目的地紧缩数据寄存器。SRC1可以表示第一128位宽的源紧缩数据寄存器或存储器位置。SRC2可以表示第二128位宽的源紧缩数据寄存器。也就是说，在一些实施例中，DEST可以至少与SRC1和SRC2中的每一个的宽度的四倍一样宽。SRC1可以存储表示经UTF-8编码的字节序列的UTF-8流的块。SRC2可以存储对应于来自SRC1的经验证的UTF-8代码点的紧缩长度。

可以使用指令来从SRC1中的每一个经验证的可变长度UTF-8代码点中提取统一码位字段(即，UTF-8编码方式中对统一码值有贡献的那些位)。来自SRC1中的每一个经验证的UTF-8代码点的所提取的统一码位字段可以存储在DEST中不同的对应的数据元素中(例如，在DEST中对应的紧缩的32位双字数据元素中)。如果由SRC2指示(例如，由SRC2中的字节指示)的长度值在1字节与4字节之间(包括性的)，则在一些实施例中，可例如从MSROM或另一管芯上的非易失性存储器检索用于相同字节长度的对应的UTF-8编码方式签名模式。或者，指令可以显式地指定或隐式地指示另一源操作数以提供UTF-8编码方式签名模式。可以将UTF-8编码方式签名模式用于从对应的UTF-8代码点中去除签名位(例如，除要被提取的统一码位之外的位)。其余的统一码位表示要被提取的统一码位，并且足以确定统一码值。这些其余的统一码位可以存储在DEST中对应的数据元素中。例如，在一些实施例中，可以按字节粒度的升序顺序将这些其余的统一码位存储在对应的32位双字数据元素内，但是本发明的范围不如此受限。

在一些实施例中，如果由SRC2中的字节元素指示的字节长度大于4字节(假定本实现不支持5字节或6字节UTF-8代码点)，则DEST中对应的32位双字数据元素可以存储表示无效输入数据的预定的统一码值。在一些实施例中，指令也可以任选地显式地指定或隐式地指示进一步的目的地操作数，可以响应于指令而将所提取的UTF-8代码点的总数量存储在该进一步的目的地操作数中，但是这不是必需的。作为一个特定示例，指令可以隐式地指示用于提供所提取的UTF-8代码点的该总数量的通用寄存器，但是本发明的范围不如此受限。在其他实施例中，可以任选地使用更宽的或更窄的寄存器。例如，在各实施例中，可将64位、256位或512位寄存器用于SRC1和/或SRC2，并且可以将四倍宽的寄存器(或寄存器组合)用作DEST。

下面的伪代码表示合适的紧缩的UTF-8代码点统一码位提取指令的另一示例实施例。在此伪代码中，Src1表示具有UTF-8代码点块或序列的第一128位源紧缩数据。Src2表示具有经验证的UTF-8代码点的长度的第二128位源紧缩数据。Dest表示目的地。在此伪代码中，操作Switch(K_m)基于长度值K_m来选择四种情况中的一种。符号<<8表示右移8位，以此类推。ZeroExt32表示32位最高有效位零扩展操作。

//在伪代码中，ExtractD(len,dwSrc)是：

在上文的描述中，由于UTF-8格式的流行而强调了它。然而，替代地还可以使用除UTF-8之外的其他可变长度编码格式。例如，可以使用UTF-8的扩展、UTF-8的派生方案、UTF-8的等效方案、UTF-8的替代方案，或完全可以使用其他可变长度编码格式。此外，在上文的描述中，由于一字节至四字节代码点的流行以及其涵盖了大多数重要的字符和语言，因此描述了一字节到四字节代码点。然而，如果需要，其他实施例可以将上述方法扩展到五字节或六字节代码点。

指令集包括一个或多个指令格式。给定指令格式定义各种字段(位的数量、位的位置)以指定将要执行的操作(操作码)以及将对其进行该操作的操作数，等等。通过指令模板的定义(或子格式)进一步分解一些指令格式。例如，可将给定指令格式的指令模板被定义为具有指令格式的字段的不同子集(所包括的字段通常按相同的顺序，但是至少一些字段具有不同的位的位置，因为有较少的字段被包括)和/或定义为具有以不同的方式来解释的给定字段。如此，ISA的每一条指令使用给定的指令格式来表达(并且如果经定义，则按照该指令格式的指令模板中的给定指令模板)，并包括用于指定操作和操作数的字段。例如，示例性ADD(加法)指令具有特定操作码和指令格式，该指令格式包括用于指定该操作码的操作码字段和用于选择操作数的操作数字段(源1/目的地和源2)的指令格式；并且在指令流中此ADD指令的出现将在选择特定操作数的操作数字段中具有特定内容。已发布和/或出版了被称为高级向量扩展(AVX)(AVX1和AVX2)并使用向量扩展(VEX)编码方案的SIMD扩展集(例如，参见2011年10月的《64和IA-32架构软件开发者手册》(“64andIA-32ArchitecturesSoftwareDevelopersManual”)；并且参见2011年6月的《高级向量扩展编程参考》(“AdvancedVectorExtensionsProgrammingReference”))。

示例性指令格式

本文中所描述的指令的各实施例能以不同的格式来具体化。另外，下文详述了示例性系统、架构和流水线。可以在此类系统、架构和流水线上执行指令的各实施例，但不限于详述的那些系统、架构和流水线。

通用向量友好指令格式

向量友好指令格式是适于向量指令的指令格式(例如，具有专用于向量操作的某些字段)。尽管描述了在其中通过向量友好指令格式来支持向量和标量操作两者的各实施例，但是替换实施例仅使用向量操作以及向量友好指令格式。

图10A-10B是示出根据本发明的各实施例的通用向量友好指令格式及其指令模板的框图。图10A是示出根据本发明的各实施例的通用向量友好指令格式及其A类指令模板的框图；而图10B是示出根据本发明的各实施例的通用向量友好指令格式及其B类指令模板的框图。具体而言，为通用向量友好指令格式1000定义了A类和B类指令模板，这两类指令模板都包括无存储器访问1005指令模板和存储器访问1020指令模板。向量友好指令格式的上下文中的术语“通用”是指指令格式不束缚于任何特定的指令集。

尽管将描述其中向量友好指令格式支持下列各项的本发明的各实施例：具有32位(4字节)或64位(8字节)数据元素宽度(或尺寸)的64字节向量操作数长度(或尺寸)(以及由此产生的由16个双字尺寸的元素或者替代地由8个四字尺寸的元素组成的64字节向量)；具有16位(2字节)或8位(1字节)数据元素宽度(或尺寸)的64字节向量操作数长度(或尺寸)；具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸)的32字节向量操作数长度(或尺寸)；以及具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸)的16字节向量操作数长度(或尺寸)；但是替换实施例可以支持具有更多、更少或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)的更多、更少和/或不同的向量操作数尺寸(例如，256字节向量操作数)。

图10A中的A类指令模板包括：1)在无存储器访问1005指令模板内，示出了无存储器访问的完整舍入控制类型操作1010指令模板以及无存储器访问的数据变换类型操作1015指令模板；以及2)在存储器访问1020指令模板内，示出了存储器访问时效性1025指令模板以及存储器访问非时效性1030指令模板。图10B中的B类指令模板包括：1)在无存储器访问1005指令模板内，示出无存储器访问的写掩码控制部分舍入控制类型操作1012指令模板以及无存储器访问的写掩码控制vsize类型操作1017指令模板；以及2)在存储器访问1020指令模板内，示出存储器访问的写掩码控制1027指令模板。

通用向量友好指令格式1000包括下文中按照图10A-10B中所示出的顺序列出的下列字段。

格式字段1040——此字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式，并由此标识向量友好指令格式的指令在指令流中的出现。如此，此字段对于仅具有通用向量友好指令格式的指令集不是必需的，从这个意义上说，此字段是任选的。

基础操作字段1042——其内容区分不同的基础操作。

寄存器索引字段1044——其内容直接地或通过地址生成来指定源和目的地操作数的位置，无论它们在寄存器中还是在存储器中。这些包括用于从PxQ(例如，32x512、16x128、32x1024、64x1024)个寄存器组中选择N个寄存器的足够数量的位。尽管在一个实施例中，N可以是多至三个源和一个目的地寄存器，但是替代实施例可以支持更多或更少的源和目的地寄存器(例如，可以支持多至两个源，其中，这些源中的一个也充当目的地；可以支持多至三个源，其中，这些源中的一个也充当目的地；可以支持多至两个源和一个目的地)。

修饰符字段1046——其内容将指定存储器访问的通用向量指令格式的指令的出现与不指定存储器访问的通用向量指令格式的指令的出现区分开；即在无存储器访问1005指令模板与存储器访问1020指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次结构(在某些情况下，使用寄存器中的值来指定源和/或目的地地址)，而非存储器访问操作不这样做(例如，源和目的地是寄存器)。尽管在一个实施例中，此字段也在用于执行存储器地址计算的三种不同的方式之间选择，但是替换实施例可以支持用于执行存储器地址计算的更多、更少或不同的方式。

扩充操作字段1050——其内容区分除基础操作之外还要执行各种不同的操作中的哪一个。此字段是针对上下文的。在本发明的一个实施例中，此字段被划分为类别字段1068、α字段1052以及β字段1054。扩充操作字段1050允许在单条指令而非2条、3条或4条指令中执行多组共同的操作。

比例字段1060——其内容允许缩放索引字段的内容，以便用于存储器地址生成(例如，用于使用2^比例*索引+基址的地址生成)。

位移字段1062A——其内容被用作存储器地址生成的部分(例如，用于使用2^比例*索引+基址+位移的地址生成)。

位移因数字段1062B(请注意，位移字段1062A直接并置在位移因数字段1062B上方指示使用一个或另一个)——其内容被用作地址生成的部分；它指定将缩放存储器访问的尺寸(N)的位移因数——其中，N是存储器访问中的字节的数量(例如，用于使用2^比例*索引+基址+按比例缩放的位移的地址生成)。忽略冗余的低阶位，并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成要在计算有效地址时使用的最终位移。N的值是由处理器硬件基于完整操作码字段1074(稍后描述)和数据操纵字段1054C在运行时确定的。位移字段1062A和位移因数字段1062B不用于无存储器访问1005指令模板，和/或不同的实施例可以实现仅一者或两者都不实现，从这个意义上说，位移字段1062A和位移因数字段1062B是任选的。

数据元素宽度字段1064——其内容区分将使用数个数据元素宽度中的哪一个(在一些实施例中，对于所有指令；在其他实施例中，仅对于指令中的一些)。如果仅支持一个数据元素宽度和/或使用操作码的某个方面来支持数据元素宽度，则不需要此字段，从这个意义上来说，此字段是任选的。

写掩码字段1070——其内容逐数据元素位置地控制目的地向量操作数中的该数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码，而B类指令模板支持合并-写掩码和归零-写掩码两者。当合并时，向量掩码允许防止目的地中的任何元素集在任何操作(由基础操作和扩充操作指定)的执行期间被更新；在另一个实施例中，保持目的地的每一个元素的旧值，其中，对应的掩码位具有0。相比之下，当归零时，向量掩码允许目的地中的任何元素集在任何操作((由基础操作和扩充操作指定))的执行期间被归零；在一个实施例中，当对应的掩码位具有0值时，目的地的元素被设置为0。此功能的子集是控制正在被执行的操作的向量长度的能力(即，从第一个到最后一个要修改的元素的跨度)；然而，被修改的元素不一定要是连续的。如此，写掩码字段1070允许部分向量操作，包括加载、存储、算术、逻辑等等。尽管描述了在其中写掩码字段1070的内容选择数个写掩码寄存器中包含要使用的写掩码的一个写掩码寄存器(并且由此，写掩码字段1070的内容间接地指示要执行的掩码操作)的本发明的各实施例，但是，替代实施例也可以相反或另外允许掩码写入字段1070的内容直接指定要执行的掩码操作。

立即数字段1072——其内容允许指定立即数。此字段不存在于不支持立即数的通用向量友好格式的实现中，并且不存在于不使用立即数的指令中，从这个意义上说，此字段是任选的。

类字段1068——其内容在不同类别的指令之间进行区分。参考图10A-B，此字段的内容在A类和B类指令之间选择。在图10A-B中，使用圆角方形来指示在字段中存在专用值(例如，在图10A-B中，分别是针对类字段1068的A类1068A和B类1068B)。

A类指令模板

在A类非存储器访问1005的指令模板的情况下，α字段1052被解释为RS字段1052A，其内容区分将执行不同的扩充操作类型中的哪一种(例如，分别为无存储器访问的舍入型操作1010以及无存储器访问的数据变换型操作1015指令模板指定的舍入1052A.1和数据变换1052A.2)，而β字段1054将区别将执行指定的类型的操作中的哪一个。在无存储器访问1005指令模板中，比例字段1060、位移字段1062A以及位移比例字段1062B不存在。

无存储器访问的指令模板——完整舍入控制型操作

在无存储器访问的完整舍入控制型操作1010指令模板中，β字段1054被解释为舍入控制字段1054A，其内容提供静态舍入操作。尽管在本发明的所描述的实施例中，舍入控制制字段1054A包括抑制所有浮点异常(SAE)字段1056和舍入操作控制字段1058，但是替代实施例可以支持将这两个概念编码为同一个字段，或仅具有这些概念/字段中的一个或另一个(例如，可以仅具有舍入操作控制字段1058)。

SAE字段1056——其内容区分是否禁用异常事件报告；当SAE字段1056的内容指示启用抑制时，给定的指令不报告任何种类的浮点异常标志，并且不引发任何浮点异常处理程序。

舍入操作控制字段1058——其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入和就近舍入)。如此，舍入操作控制字段1058允许逐指令地改变舍入模式。在处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段1050的内容优先于该寄存器值。

无存储器访问的指令模板——数据变换型操作

在无存储器访问的数据变换型操作1015指令模板中，β字段1054被解释为数据变换字段1054B，其内容区分将执行数个数据变换中的哪一个(例如，无数据变换、混合、广播)。

在A类存储器访问1020指令模板的情况下，α字段1052被解释为驱逐提示字段2052B，其内容区分将使用驱逐提示中的哪一个(在图10A中，分别为存储器访问时效性1025指令模板和存储器访问非时效性1030指令模板指定的时效性1052B.1和非时效性1052B.2)，而β字段1054被解释为数据操纵字段1054C，其内容区分将执行数个数据操纵操作(也称为基元)中的哪一个(例如，无操纵；广播；源的向上转换；以及目的地的向下转换)。存储器访问1020指令模板包括比例字段1060、并且任选地包括位移字段1062A或位移比例字段1062B。

向量存储器指令利用转换支持来执行来自于存储器的向量加载和向存储器的向量存储。如同常规向量指令，向量存储器指令以数据元素式方式往返于存储器传输数据，其中实际传输的元素由被选为写掩码的向量掩码的内容规定。

存储器访问指令模板——时效性

时效性数据是可能足够快地重复使用以得益于高速缓存操作的数据。然而，这是暗示，并且不同的处理器能以不同的方式来实现它，包括完全忽略该暗示。

存储器访问指令模板——非时效性

非时效性数据是不大可能足够快地重复使用以从第1级高缓存中的高速缓存操作获益且应当给予驱逐优先级的数据。然而，这是暗示，并且不同的处理器能以不同的方式来实现它，包括完全忽略该暗示。

B类的指令模板

在B类指令模板的情况下，α字段1052被解释为写掩码控制(Z)字段1052C，其内容区分由写掩码字段1070控制的写掩码应当是合并还是归零。

在B类非存储器访问1005指令模板的情况下，β字段1054的部分被解释为RL字段1057A，其内容区分将执行不同的扩充操作类型中的哪一种(例如，分别为无存储器访问的写掩码控制部分舍入控制型操作1012指令模板和无存储器访问的写掩码控制VSIZE型操作1017指令模板指定的舍入1057A.1和向量长度(VSIZE)1057A.2)，而β字段1054的其余部分区别将执行指定类型的操作中的哪一个。在无存储器访问1005指令模板中，比例字段1060、位移字段1062A和位移比例字段1062B不存在。

在无存储器访问的写掩码控制部分舍入控制型操作1010指令模板中，β字段1054的其余部分被解释为舍入操作字段1059A，并且异常事件报告被禁用(给定的指令不报告任何种类的浮点异常标志，并且不引发任何浮点异常处理程序)。

舍入操作控制字段1059A——正如舍入操作控制字段1058，其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入和就近舍入)。如此，舍入操作控制字段1059A允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段1050的内容优先于该寄存器值。

在无存储器访问的写掩码控制VSIZE型操作1017指令模板中，β字段1054的其余部分被解释为向量长度字段1059B，其内容区分将执行数个数据向量长度中的哪一个(例如，128、256或512字节)。

在B类存储器访问1020指令模板的情况下，β字段1054的部分被解释为广播字段1057B，其内容区分是否将执行广播类型数据操纵操作，而β字段1054的其余部分被解释为向量长度字段1059B。存储器访问1020指令模板包括比例字段1060、并且可任选地包括位移字段1062A或位移比例字段1062B。

就通用向量友好指令格式1000而言，完整操作码字段1074示出为包括格式字段1040、基础操作字段1042以及数据元素宽度字段1064。尽管示出了其中完整操作码字段1074包括所有这些字段的一个实施例，但是，在不是支持所有这些字段的实施例中，完全操作码字段1074包括少于全部这些字段。完全操作码字段1074提供操作代码(操作码)。

扩充操作字段1050、数据元素宽度字段1064以及写掩码字段1070允许以通用向量友好指令格式逐指令地指定这些特征。

写掩码字段和数据元素宽度字段的组合创建各种类型的指令，因为这些指令允许基于不同的数据元素宽度来应用掩码。

在A类和B类内发现的各种指令模板在不同的情况下是有益的。在本发明的一些实施例中，不同的处理器或处理器内的不同核可以仅支持A类、仅支持B类，或支持这两类。例如，旨在用于通用计算的高性能通用无序核可以仅支持B类，旨在主要用于图形和/或科学(吞吐量)计算的核可以仅支持A类，而旨在用于两者的核可以支持两者(当然，具有来自这两种类别的模板和指令的某个混合但不是来自这两种类别的所有模板和指令的核也在本发明的范围内)。此外，单个处理器可以包括多个核，所有的这些核都支持相同的类别，或其中，不同的核支持不同的类别。例如，在具有分开的图形器件和通用核的处理器中，旨在主要用于图形和/或科学计算的图形核中的一个可以仅支持A类，而通用核中的一个或多个可以是仅支持B类的、旨在用于通用计算的具有无序执行和寄存器重命名的高性能通用核。不具有分开的图形核的另一处理器可以包括支持A类和B类两者的一个或多个通用有序或无序核。当然，在本发明的不同的实施例中，来自一个类别的特征也可以在其他类别中实现。以高级语言编写的程序将被置于(例如，及时编译或静态编译)各种不同的可执行形式，包括：1)仅具有受供执行的目标处理器支持的类别的指令的形式；或2)具有使用所有类别的指令的不同的组合编写的替代的例程并具有选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控制流程代码的形式。

示例性专用向量友好指令格式

图11A是示出根据本发明的各实施例的示例性专用向量友好指令格式的框图。图11B示出专用向量友好指令格式1100，它指定字段的位置、尺寸、解释以及顺序，以及那些字段中的某些的值，从这个意义上而言，专用向量友好指令格式1100是专用的。专用向量友好指令格式1100可以被用来扩展x86指令集，并且由此，这些字段中的一些与用于现有的x86指令集及其扩展(例如，AVX)中的那些字段类似或相同。此格式与带有扩展的现有的x86指令集的前缀编码字段、实操作码字节字段、MODR/M字段、SIB字段、位移字段以及立即数字段保持一致。示出了将来自图11A的字段映射到其中的来自图10的字段。

应当理解，虽然出于说明性目的，在通用向量友好指令格式1000的上下文中参考专用向量友好指令格式1100描述了本发明的各实施例，但是本发明不限于专用向量友好指令格式1100，在声明之处除外。例如，通用向量友好指令格式1000构想了各种字段的各种可能的尺寸，而专用向量友好指令格式1100示出为具有特定尺寸的字段。作为具体示例，尽管数据元素宽度字段1064示出为专用向量友好指令格式1100中的一个位字段，但是本发明不限于此(也就是说，通用向量友好指令格式1000构想数据元素宽度字段1064的其他尺寸)。

通用向量友好指令格式1000包括下文中按照图11A中所示出的顺序列出的字段。

EVEX前缀(字节0-3)1102——以四字节形式编码。

格式字段1040(EVEX字节0,位[7:0])——第一字节(EVEX字节0)是格式字段1040，它包含0x62(在本发明的一个实施例中，用于区分向量友好指令格式的唯一值)。

第二-第四字节(EVEX字节1-3)包括提供特定能力的数个位字段。

REX字段1105(EVEX字节1,位[7-5])–由EVEX.R位字段(EVEX字节1,位[7]–R)，EVEX.X位字段(EVEX字节1,位[6]–X)以及1057BEX字节1，位[5]–B)组成。EVEX.R、EVEX.X以及EVEX.B位字段提供与对应的VEX位字段相同的功能，并且使用1补码形式来编码，即，ZMM0被编码为1111B，ZMM15被编码为0000B。指令的其他字段对寄存器索引的较低阶的三个位(如在本领域中已知的(rrr，xxx和bbb))进行编码，使得可以通过添加EVEX.R、EVEX.X以及EVEX.B来形成Rrrr、Xxxx和Bbbb。

REX′字段1010_这是REX′字段1010的第一部分，并且是用于对扩展的32寄存器组的较高阶16个或较低阶16个进行编码的EVEX.R’位字段(EVEX字节1，位[4]-R’)。在本发明的一个实施例中，以位反转格式来存储该位以及下文所指示的其他位，以便(在公知的x8632位模式中)与实操作码为62的BOUND指令进行区分但是在MODR/M字段(下面所述)不接受MOD字段中的值11；本发明的替代实施例不以反转格式来存储该位以及下文中其他所指示的。值1用于对较低阶的16寄存器编码。换言之，R′Rrrr是通过组合来自其他字段的EVEX.R′、EVEX.R以及其他RRR而形成的。

操作码映射字段1115(EVEX字节1,位[3:0]–mmmm)——其内容对暗示的前导操作码字节(0F、0F38或0F3)编码。

数据元素宽度字段1064(EVEX字节2,位[7]–W)——通过符号EVEX.W来表示。EVEX.W用于定义数据类型的粒度(尺寸)(32位数据元素或64位数据元素)。

EVEX.vvvv1120(EVEX字节2,位[6:3]-vvvv)——EVEX.vvvv的作用可以包括下列各项：1)EVEX.vvvv对以反转(1补码)形式指定的第一源寄存器操作数编码，并且对具有2或更多个源操作数的指令有效；2)EVEX.vvvv编码对于某些向量偏移，对以1补码形式指定的目的地寄存器操作数编码；或3)EVEX.vvvv不对任何操作数编码，并且预留该字段，而且应当包含1111b。如此，EVEX.vvvv字段1120对以反转(1补码)形式存储的第一源寄存器指定符的4个低阶位编码。取决于指令，使用附加的不同EVEX位字段来将指定符尺寸扩展到32个寄存器。

VEX.U1068类字段(EVEX字节2,位[2]-U)——如果EVEX.U＝0，则它指示A类或EVEX.U0；如果EVEX.U＝1，则它指示B类或EVEX.U1。

前缀编码字段1125(EVEX字节2,位[1:0]-pp)——为基础操作字段提供附加的位。除了为EVEX前缀格式的传统SSE指令提供支持之外，这还具有压缩SIMD前缀的益处(而不是需要一个字节来表达SIMD前缀，EVEX前缀仅需要2位)。在一个实施例中，为了以传统格式和以EVEX前缀格式两者来支持使用SIMD前缀(66H，F2H，F3H)的传统SSE指令，将这些传统SIMD前缀编码为SIMD前缀编码字段；并且在运行时，在被提供给解码器的PLA之前被扩展为传统SIMD前缀(因此，PLA可以执行这些传统指令的传统格式和EVEX格式两者而无需修改)。虽然较新的指令可以直接将EVEX前缀编码字段的内容用作操作码扩展，但是某些实施例为了一致性而以类似的方式扩展，但是允许由这些传统SIMD前缀指定的不同含义。替代实施例可以重新设计PLA以支持2位的SIMD前缀编码，并且因此不需要扩展。

α字段1052(EVEX字节3，位[7]–EH；也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制以及EVEX.N；还以α示出)——如前所述，此字段是针对上下文的。

β字段1054(EVEX字节3，位[6:4]-SSS，也称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB，还以βββ示出)——如前所述，此字段是针对上下文的。

REX′字段1010——这是REX′字段的其余部分，并且是可用于对扩展的32寄存器组的较高阶的16个或较低阶的16个进行编码的EVEX.V’位字段(EVEX字节3，位[3]-V’)。以位反转格式存储该位。使用值1对较低阶的16个寄存器编码。换言之，V′VVVV是通过组合EVEX.V′、EVEX.vvvv而形成的。

写掩码字段1070(EVEX字节3,位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器的索引，如先前所述。在本发明的一个实施例中，特定值EVEX.kkk＝000具有暗示没有写掩码用于特定指令(这能以各种方式来实现，包括使用硬连线到全1的写掩码或绕过掩码硬件的硬件)的特殊行为。

实操作码字段2130(字节4)也称为操作码字节。在此字段指定操作码的部分。

MODR/M字段1140(字节5)包括MOD字段1142、Reg字段1144以及R/M字段1146。如前所述，MOD字段1142的内容在存储器访问操作与非存储器访问操作之间进行区分。Reg字段1144的作用可以被概括为两种情况：对目的地寄存器操作数或源寄存器操作数编码；或被视为操作码扩展，并且不用于对任何指令操作数编码。R/M字段1146的作用可以包括下列各项：对引用存储器地址的指令操作数编码；或对目的地寄存器操作数或源寄存器操作数编码。

比例,索引,基址(SIB)字节(字节6)——如前所述，比例字段1050的内容用于存储器地址生成。SIB.xxx1154和SIB.bbb1156——先前已参照寄存器索引Xxxx和Bbbb提及了这些字段的内容。

位移字段1062A(字节7-10)——当MOD字段1142包含10时，字节7-10是位移字段1062A，它以与传统32位的位移(disp32)相同的方式工作，并且以字节粒度工作。

位移因数字段1062B(字节7)——当MOD字段1142包含01时，字节7是位移因数字段1062B。此字段的位置与传统x86指令集的8位的位移(disp8)(以字节粒度起作用)的位置相同。由于disp8是符号扩展的，因此它仅能在-128与127字节偏移之间寻址；就64字节高速缓存行而言，disp8使用可以被设置为仅四个实际上有用的值-128，-64，0和64的8位；由于常常需要更大的范围，因此使用disp32；然而，disp32需要4个字节。与disp8和disp32相比，位移因数字段1062B是对disp8的重新解释；当使用位移因数字段1062B时，实际位移由位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定。这种类型的位移被称为disp8*N。这减小了平均指令长度(用于位移的单个字节，但是具有大得多的范围)。此类压缩的位移基于有效位移是存储器访问的粒度的倍数的假设，并且因此，不需要对地址偏移的冗余的低阶位编码。换言之，位移因数字段1062B替代传统x86指令集的8位的位移。如此，以与x86指令集8位的位移相同的方式来对位移因数字段1062B编码(因此，在ModRM/SIB编码规则中无变化)，唯一例外是，将disp8超载到disp8*N。换言之，在编码规则或编码长度方面没有变化，而仅在由硬件对位移值的解释方面有变化，(这需要将位移按比例缩放存储器操作数的尺寸以获取字节式的地址偏移)。

立即数字段1072如先前所述那样进行操作。

完整操作码字段

图11B是示出根据本发明的一个实施例的专用向量友好指令格式1100中构成完整操作码字段1074的字段的框图。具体而言，完整操作码字段1074包括格式字段1040、基础操作字段1042以及数据元素宽度(W)字段1064。基础操作字段1042包括前缀编码字段1125、操作码映射字段1115以及实操作码字段1130。

寄存器索引字段

图11C是示出根据本发明的一个实施例的专用向量友好指令格式1100中构成寄存器索引字段1044的字段的框图。具体而言，寄存器索引字段1044包括REX字段1105、REX′字段1110、MODR/M.reg字段1144、MODR/M.r/m字段1146、VVVV字段1120、xxx字段1154以及bbb字段1156。

扩充操作字段

图11D是示出根据本发明的一个实施例的专用向量友好指令格式中构成扩充操作字段1050的字段的框图。当类(U)字段1068包含0时，它表示EVEX.U0(A类1068A)；当它包含1时，它表示EVEX.U1(B类1068B)。当U＝0并且MOD字段1142包含11(表示无存储器访问操作)时，α字段1052(EVEX字节3，位[7]-EH)被解释为rs字段1052A。当rs字段1052A包含1(舍入1052A.1)时，β字段1054(EVEX字节3、位[6:4]-SSS)被解释为舍入控制字段1054A。舍入控制字段1054A包括一位的SAE字段1056和两位的舍入操作字段1058。当rs字段1052A包含0(数据变换1052A.2)时，β字段1054(EVEX字节3，位[6:4]-SSS)被解释为三位的数据变换字段1054B。当U＝0并且MOD字段1142包含00、01，或10(表示存储器访问操作)时，α字段1052(EVEX字节3，位[7]-EH)被解释为驱逐提示(EH)字段1052B，并且β字段1054(EVEX字节3，位[6:4]-SSS)被解释为三位的数据操纵字段1054C。

当U＝1时，α字段1052(EVEX字节3，位[7]-EH)被解释为写掩码控制(Z)字段1052C。当U＝1并且MOD字段1142包含11(表示无存储器访问操作)时，β字段1054的部分(EVEX字节3，位[4]-S₀)被解释为RL字段1057A；当它包含1(舍入1057A.1)时，β字段1054的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为舍入操作字段1059A，而当RL字段1057A包含0(VSIZE1057.A2)时，β字段1054的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释如向量长度字段1059B(EVEX字节3，位[6-5]-L_1-0)。当U＝1并且MOD字段1142包含00、01或10(表示存储器访问操作)时，β字段1054(EVEX字节3，位[6:4]-SSS)被解释为向量长度字段1059B(EVEX字节3，位[6-5]-L_1-0)和广播字段1057B(EVEX字节3，位[4]-B)。

示例性寄存器架构

图12是根据本发明的一个实施例的寄存器架构1200的框图。在所示出的实施例中，有32个512位宽的向量寄存器1210；这些寄存器被引用为zmm0到zmm31。较低的16zmm寄存器的较低阶的256位覆盖在寄存器ymm0-16上。较低的16zmm寄存器的较低阶的128位(ymm寄存器的较低阶的128位)覆盖在寄存器xmm0-15上。专用向量友好指令格式1100按下表中所示方式对这些重叠寄存器组进行操作。

换言之，向量长度字段1059B在最大长度与一个或多个其他较短的长度之间选择，其中，每一个此类较短的长度都是前面一个长度的一半；并且不具有向量长度字段1059B的指令模板对最大向量长度进行操作。进一步地，在一个实施例中，专用向量友好指令格式1100的B类指令模板对紧缩的或标量单/双精度浮点数据以及紧缩的或标量整数数据进行操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶位数据元素位置执行的操作；取决于实施例，较高阶数据元素位置要么保持与在指令之前的这些位置相同，要么被归零。写掩码寄存器1215——在所示实施例中，有8个写掩码寄存器(k0到k7)，每一个的尺寸都是64位。在替代实施例中，写掩码寄存器1215的尺寸为16位。如前所述，在本发明的一个实施例中，向量掩码寄存器k0不能被用作写掩码；当将通常将指示k0的编码用于写掩码时，它选择0xFFFF的硬连线的写掩码，从而有效地禁用对于该指令的写掩码操作。

通用寄存器1225——在所示实施例中，有十六个64位通用寄存器，这些寄存器与现有的x86寻址模式一起使用来对存储器操作数寻址。通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用这些寄存器。

标量浮点栈寄存器组(x87栈)1245，在其上重叠了MMX紧缩整数平坦寄存器组1250——在所示出的实施例中，x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈；而使用MMX寄存器来对64位紧缩整数数据执行操作，以及为在MMX和XMM寄存器之间执行的某些操作保存操作数。

本发明的替代实施例可以使用更宽的或更窄的寄存器。另外，本发明的替换实施例可以使用更多、更少或不同的寄存器组和寄存器。

示例性核架构、处理器和计算机架构

能以不同方式，出于不同的目的，在不同的处理器中实现处理器核。例如，此类核的实现可以包括：1)旨在用于通用计算的通用有序核；2)旨在用于通用计算的高性能通用无序核；3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括：1)CPU，其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用无序核；以及2)协处理器，其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核的。此类不同的处理器导致不同的计算机系统架构，其可包括：1)在与CPU分开的芯片上的协处理器；2)在与CPU相同的封装中但分开的管芯上的协处理器；3)与CPU在相同管芯上的协处理器(在该情况下，有时将此类协处理器称为诸如集成图形和/或科学(吞吐量)逻辑之类的专用逻辑或专用核)；以及4)可以将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在相同的管芯上的芯片上系统。接着描述示例性核架构，随后描述示例性处理器和计算机架构。

示例性核架构

有序和无序核框图

图13A是示出根据本发明的各实施例的示例性有序流水线和示例性寄存器重命名的无序发布/执行流水线两者的框图。图13B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名的无序发布/执行架构核两者的框图。图13A-B中的实线框示出有序流水线和有序核，而任选增加的虚线框示出寄存器重命名的无序发布/执行流水线和核。考虑到有序方面是无序方面的子集，将描述无序方面。

在图13A中，处理器流水线1300包括取出级1302、长度解码级1304、解码级1306、分配级1308、重命名级1310、调度(也称为分派或发布)级1312、寄存器读取/存储器读取级1314、执行级1316、写回/存储器写入级1318、异常处理级1322以及提交级1324。

图13B示出处理器核1390，其包括耦合到执行引擎单元1350的前端单元1330，执行引擎单元1350和前端单元1330两者都耦合到存储器单元1370。核1390可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或替代核类型。作为又一选项，核1390可以是专用核，诸如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理器单元(GPGPU)核或图形核，等等。

前端单元1330包括耦合到指令高速缓存单元1334的分支预测单元1332，指令高速缓存单元1334耦合到指令转换后备缓冲器(TLB)1336，指令转换后备缓冲器1336耦合到指令取出单元1338，指令取出单元1338耦合到解码单元1340。解码单元1340(或解码器)可解码指令，并生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元1340可使用各种不同的机制来实现。合适机制的示例包括但不限于，查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核1390包括(例如，在解码单元1340中或以其他方式在前端单元1330内的)存储某些宏指令的微代码的微代码ROM或其他介质。解码单元1340耦合至执行引擎单元1350中的重命名/分配器单元1352。

执行引擎单元1350包括耦合到引退单元1354的重命名/分配器单元1352和一个或多个调度器单元的集合1356。调度器单元1356表示任意数量的不同调度器，包括预留站、中心指令窗等。调度器单元1356耦合到物理寄存器组单元1358。物理寄存器组单元1358中的每一个表示一个或多个物理寄存器组，其中不同的物理寄存器组存储一种或多种不同的数据类型，诸如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点、状态(例如，作为要执行的下一条指令的地址的指令指针)等。在一个实施例中，物理寄存器组单元1358包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。物理寄存器组单元1358由隐退单元1354重叠以示出可实现寄存器重命名和无序执行的各种方式(例如，使用重排序缓冲器和引退寄存器组；使用未来文件(futurefile)、历史缓冲器和引退寄存器组；使用寄存器映射和寄存器池，等等)。引退单元1354和物理寄存器组单元1358耦合到执行群集1360。执行群集1360包括一个或多个执行单元的集合1362和一个或多个存储器访问单元的集合1364。执行单元1362可以对各种类型的数据(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行各种操作(例如，移位、加法、减法、乘法)。尽管一些实施例可以包括专用于特定功能或功能集的数个执行单元，但是其他实施例可以仅包括一个执行单元或全部都执行所有功能的多个执行单元。调度器单元1356、物理寄存器组单元1358以及执行群集1360示出为可能是复数个，因为某些实施例为某些类型的数据/操作创建单独的流水线(例如，各自都具有其自身的调度器单元、物理寄存器组单元和/或执行群集的标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线和/或存储器访问流水线——并且在单独的存储器访问流水线的情况下，实现了其中仅此流水线的执行群集具有存储器访问单元1364的某些实施例)。还应当理解，在使用单独的流水线的情况下，这些流水线中的一个或多个可以是无序发布/执行的，而其余的是有序的。

存储器访问单元的集合1364耦合到存储器单元1370，该存储器单元1370包括耦合到数据高速缓存单元1374的数据TLB单元1372，其中数据高速缓存单元1374耦合到第2级(L2)高速缓存单元1376。在一个示例性实施例中，存储器访问单元1364可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合至存储器单元1370中的数据TLB单元1372。指令高速缓存单元1334进一步耦合到存储器单元1370中的第2级(L2)高速缓存单元1376。L2高速缓存单元1376耦合到一个或多个其他层级的高速缓存，并最终耦合到主存储器。

作为示例，示例性寄存器重命名的无序发布/执行核架构可以如下方式实现流水线1300：1)指令取出1338执行取出和长度解码级1302和1304；2)解码单元1340执行解码级1306；3)重命名/分配器单元1352执行分配级1308和重命名级1310；4)调度器单元1356执行调度级1312；5)物理寄存器组单元1358和存储器单元1370执行寄存器读取/存储器读取级1314；执行群集1360执行执行级1316；6)存储器单元1370和物理寄存器组单元1358执行写回/存储器写入级1318；7)各种单元可涉及异常处理级1322；以及8)引退单元1354和物理寄存器组单元1358执行提交级1324。

核1390可支持一个或多个指令集(例如，x86指令集(具有与较新版本一起添加的一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON之类的可选的附加扩展))，其中包括本文中所描述的指令。在一个实施例中，核1390包括用于支持紧缩数据指令集合扩展(例如，AVX1、AVX2)的逻辑，进而允许由许多多媒体应用使用的操作将使用紧缩数据来执行。

应当理解，核可支持多线程操作(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程操作，各种方式包括时分多线程操作、同步多线程操作(其中，单个物理核为物理核正在同步进行多线程操作的多个线程中的每一个线程提供逻辑核)或其组合(例如，时分取出和解码以及此后诸如利用超线程技术的同步多线程操作)。

尽管在无序执行的上下文中描述了寄存器重命名，但是，应当理解，寄存器重命名可以用于有序架构中。尽管所示出的处理器的实施例还包括分开的指令和数据高速缓存单元1334/1374以及共享L2高速缓存单元1376，但替代实施例可以具有用于指令和数据两者的单个内部高速缓存，诸如例如，第1级(L1)内部高速缓存或多个层级的内部高速缓存。在一些实施例中，系统可以包括内部高速缓存以及在核和/或处理器外部的外部高速缓存的组合。或者，全部高速缓存都可以在核和/或处理器的外部。

具体的示例性有序核架构

图14A-B示出更具体的示例性有序核架构的框图，该核将是芯片中的多个逻辑块中的一个(包括相同类型和/或不同类型的其他核)。取决于应用，这些逻辑块通过高带宽的互连网络(例如，环形网络)与一些固定功能逻辑、存储器I/O接口以及其他必要的I/O逻辑通信。

图14A是根据本发明的各实施例的单个处理器核以及其到管芯上的互连网络1402的连接以及其第2级(L2)高速缓存的本地子集1404的框图。在一个实施例中，指令解码器1400支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1406允许对进入标量和向量单元中的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计)，标量单元1408和向量单元1410使用分开的寄存器集合(分别为标量寄存器1412和向量寄存器1414)，并且在这些寄存器之间转移的数据被写入到存储器并随后从第1级(L1)高速缓存1406读回，但是本发明的替代实施例可以使用不同的方法(例如，使用单个寄存器集合，或包括允许数据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。

L2高速缓存的本地子集1404是全局L2高速缓存的部分，该全局L2高速缓存被划分成多个分开的本地子集，对于每一个处理器核有一个本地子集。每个处理器核具有到其自己的L2高速缓存的本地子集1404的直接访问路径。可将由处理器核读取的数据存储在其L2高速缓存的子集1404中，并且可以与其他处理器核访问其自身的本地L2高速缓存的子集并行地迅速访问由处理器核读取的数据。可将由处理器核写入的数据存储在其自身的L2高速缓存的子集1404中，并在必要的情况下从其它子集中转储清除。环形网络确保共享数据的一致性。环形网络是双向的以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径在每个方向上为1012位宽。

图14B是根据本发明的实施例的图14A中的处理器核的部分的展开图。图14B包括L1高速缓存1404的L1数据高速缓存1416A部分，以及关于向量单元1410和向量寄存器1414的更多细节。具体地说，向量单元1410是16宽向量处理单元(VPU)(见16宽ALU1428)，该单元执行整数、单精度浮点以及双精度浮点指令中的一条或多条。该VPU利用混合单元1420来支持混合寄存器输入，利用数值转换单元1422A-B来支持数值转换，以及利用复制单元1424来支持对存储器输入的复制。写掩码寄存器1426允许预测所产生的向量写入。

具有集成存储器控制器和图形器件的处理器

图15是根据本发明的各实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器1500的框图。图15中的实线框示出具有单个核1502A、系统代理1510、一个或多个总线控制器单元的集合1516的处理器1500，而虚线框的可选附加示出具有多个核1502A-N、系统代理单元1510中的一个或多个集成存储器控制器单元的集合1514以及专用逻辑1508的替代的处理器1500。

因此，处理器1500的不同实现可包括：1)CPU，其中，专用逻辑1508是集成的图形和/或科学(吞吐量)逻辑(其可以包括一个或多个核)，并且核1502A-N是一个或多个通用核(例如，通用有序核、通用无序核，两者的组合)；2)协处理器，其中，核1502A-N是旨在主要用于图形和/或科学(吞吐量)计算的大量的专用核；以及3)协处理器，其中，核1502A-N是大量的通用有序核。因此，处理器1500可以是通用处理器、协处理器或专用处理器，专用处理器诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)或嵌入式处理器等。处理器可以实现在一个或多个芯片上。处理器1500可以是一个或多个基板的部分，和/或可以使用数种工艺技术中的任何技术来将处理器1500实现在一个或多个基板上，数种工艺技术诸如，BiCMOS、CMOS或NMOS。

存储器层次结构包括核内的一个或多个层级的高速缓存，一组或一个或多个共享高速缓存单元1506以及耦合到集成存储器控制器单元的集合1514的外部存储器(未示出)。共享高速缓存器单元的集合1506可以包括一个或多个中级高速缓存，诸如，第2级(L2)、第3级(L3)、第4级(L4)，或其他层级的高速缓存，末级高速缓存(LLC)，和/或上述各项的组合。尽管在一个实施例中，基于环的互连单元1512将集成图形逻辑1508、共享高速缓存单元的集合1506以及系统代理单元1510/集成存储器控制器单元1514互连，但替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中，在一个或多个高速缓存单元1506与核1502-A-N之间维持一致性(coherency)。

在一些实施例中，核1502A-N中的一个或多个能够进行多线程操作。系统代理1510包括协调并操作核1502A-N的那些组件。系统代理单元1510可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括用于调节核1502A-N和集成图形逻辑1508的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个从外部连接的显示器。

核1502A-N在架构指令集方面可以是同构或异构的；也就是说，这些核1502A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅子集或不同的指令集。

示例性计算机架构

图16-19是示例性计算机架构的框图。本领域中已知的对膝上型计算机、台式机、手持式PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形器件、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般而言，能够涵盖本文中所公开的处理器和/或其他执行逻辑的多种系统和电子设备通常都是合适的。

现在参见图16，所示是根据本发明的一个实施例的系统1600的框图。系统1600可以包括一个或多个处理器1610、1615，这些处理器耦合到控制器中枢1620。在一个实施例中，控制器中枢1620包括图形存储器控制器中枢(GMCH)1690和输入/输出中枢(IOH)1650(其可以在单独的芯片上)；GMCH1690包括存储器和图形控制器，存储器1640和协处理器1645耦合到该存储器和图形控制器；IOH1650将输入/输出(I/O)设备1660耦合到GMCH1690。或者，存储器和图形控制器中的一个或两者都集成在处理器内(如本文中所述)，存储器1640和协处理器1645处理器1610以及具有IOH1650的单个芯片中的控制器中枢1620。

在图16中以虚线表示附加的处理器1615的任选的性质。每一个处理器1610、1615可包括本文中描述的处理核中的一个或多个，并且可以是处理器1500的某一版本。

存储器1640可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢1620经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口或者类似的连接1695与处理器1610、1615进行通信。

在一个实施例中，协处理器1645是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器，等等。在一个实施例中，控制器中枢1620可以包括集成图形加速器。

就包括架构、微架构、热、功耗特性等的一系列品质度量方面而言，在物理资源1610、1615之间可能会有各种差异。

在一个实施例中，处理器1610执行控制通用类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器1610将这些协处理器指令识别为应当由附连的协处理器1645执行的类型。因此，处理器1610在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1645。协处理器1645接受并执行所接收的协处理器指令。

现在参见图17，所示是根据本发明的实施例的第一更具体的示例性系统1700的框图。如图17所示，多处理器系统1700是点对点互连系统，并包括经由点对点互连1750耦合的第一处理器1770和第二处理器1780。处理器1770和1780中的每一个都可以是处理器1500的某一版本。在本发明的一个实施例中，处理器1770和1780分别是处理器1610和1615，而协处理器1738是协处理器1645。在另一实施例中，处理器1770和1780分别是处理器1610和协处理器1645。

处理器1770和1780示出为分别包括集成存储器控制器(IMC)单元1772和1782。处理器1770还包括点对点(P-P)接口1776和1778作为其总线控制器单元的部分；类似地，第二处理器1780包括P-P接口1786和1788。处理器1770、1780可以经由使用点对点(P-P)接口电路1778、1788的P-P接口1750来交换信息。如图17所示，IMC1772和1782将处理器耦合到相应的存储器，即，存储器1732和存储器1734，它们可以是本地连接到相应的处理器的主存储器的部分。

处理器1770、1780可各自经由使用点对点接口电路1776、1794、1786、1798的各个P-P接口1752、1754与芯片组1798交换信息。芯片组1790可以选地经由高性能接口1739与协处理器1738交换信息。在一个实施例中，协处理器1738是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU或嵌入式处理器，等等。

共享高速缓存(未示出)可以被包括在任一处理器之内，或被包括在两个处理器外部但仍经由P-P互连与这些处理器连接，使得如果将某处理器置于低功率模式时，可将任一处理器或两个处理器的本地高速缓存信息存储在该共享高速缓存中。

芯片组1790可经由接口1796耦合至第一总线1716。在一个实施例中，第一总线1716可以是外围组件互连(PCI)总线，或诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但本发明的范围并不受此限制。

如图17所示，各种I/O设备1714可连同总线桥1716被耦合到第一总线1716，总线桥1718将第一总线1716耦合到第二总线1720。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(诸如例如，图形加速器或数字信号处理器(DSP)单元)、现场可编程门阵列或任何其他处理器之类的一个或多个附加处理器1715耦合到第一总线1716。在一个实施例中，第二总线1720可以是低引脚计数(LPC)总线。各种设备可以被耦合至第二总线1720，在一个实施例中，各种设备包括例如，键盘和/或鼠标1722、通信设备1727以及存储单元1728，该存储单元1728诸如可包括指令/代码和数据1730的盘驱动器或其他大容量存储设备。此外，音频I/O1724可以耦合至第二总线1720。注意，其他架构是可能的。例如，系统可实现多分支总线或者其他此类架构，而不是图17中的点对点架构。

现在参见图18，所示是根据本发明的实施例的第二更具体的示例性系统1800的框图。图17和图18中同样的元件具有同样的参考编号，从图18中省略了图17的某些方面，以避免使图18的其他方面变得模糊。

图18示出处理器1770、1780可以分别包括集成的存储器和I/O控制逻辑(“CL”)1772和1782。因此，CL1772、1782包括集成存储器控制器单元，并包括I/O控制逻辑。图18示出不仅存储器1732、1734耦合到CL1772、1782，而且I/O设备1814也耦合到控制逻辑1772、1782。传统I/O设备1815耦合至芯片组1790。

现在参见图19，所示是根据本发明的实施例的SoC1900的框图。图15中的类似的元素具有同样的参考编号。另外，虚线框是更先进的SoC的可选特征。在图19中，互连单元1902耦合到：应用处理器1910，其包括一个或多个核的集合202A-N以及共享高速缓存单元1506；系统代理单元1510；总线控制器单元1516；集成存储器控制器单元1514；一组或一个或多个协处理器1920，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元1930；直接存储器存取(DMA)单元1932；以及用于耦合至一个或多个外部显示器的显示单元1940。在一个实施例中，协处理器1920包括专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器或嵌入式处理器，等等。

本文公开的机制的各实施例可以实现在硬件、软件、固件或这些它们的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可以将诸如图17中所示出的代码1730之类的程序代码应用于输入指令，以执行本文中所描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有处理器的任何系统，处理器诸如例如，数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制在范围上不限于任何特定的编程语言。在任一情形下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现，该机器可读介质表示处理器中的各种逻辑，当由机器读取该指令时，该指令使该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的此类表示可以存储在有形的机器可读介质中，并且可提供给各种客户或生产设施，以便加载到实际制造逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括但不限于由机器或设备制造或形成的制品的非暂态的有形安排，其包括，存储介质，诸如，硬盘；任何其他类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘；半导体器件，例如，只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其他类型的介质。

因此，本发明的各实施例还包括非暂态的有形机器可读介质，该介质包含指令或包含设计数据，诸如，硬件描述语言(HDL)，它定义本文中描述的结构、电路、装置、处理器和/或系统特征。此类实施例还可以被称为程序产品。

仿真(包括二进制变换、代码变形等)

在一些情况下，可以使用指令转换器来将指令从源指令集转换为目标指令集。例如，指令转换器可以将指令转换(例如，使用静态二进制变换、包括动态编译的动态二进制转换)、变形、仿真或以其他方式转换为要由核处理的一条或多条其他指令。指令转换器可以在软件、硬件、固件，或它们的组合中实现。指令转换器可以在处理器上，在处理器外，或者部分在处理器上且部分在处理器外。

图20是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中，指令转换器是软件指令转换器，但替代地可以在软件、固件、硬件或它们的各种组合中实现指令转换器。图20示出可以使用x86编译器2004来编译高级语言2002形式的程序以生成可由具有至少一个x86指令集核的处理器2016原生地执行的x86二进制代码2006。具有至少一个x86指令集核的处理器2016表示能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器：1)英特尔x86指令集核的指令集的本质部分，或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以实现与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器2004表示用于生成x86二进制代码2006(例如，目标代码)的编译器，该x86二进制代码2006可利用或不利用附加的链路处理而在具有至少一个x86指令集核的处理器2016上执行。类似地，图20示出可以使用替代的指令集编译器2008来编译高级语言2002的程序以生成可由不具有至少一个x86指令集核的处理器2014(例如，具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集和/或执行加利福尼州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生地执行的替代的指令集二进制代码2010。指令转换器2012用于将x86二进制代码2006转换成可以由不具有x86指令集核的处理器2014原生地执行的代码。该转换后的代码不大可能与替代的指令集二进制代码2010相同，因为能够这样做的指令转换器难以制造；然而，转换后的代码将完成通用操作，并且将由来自替代指令集的指令构成。因此，指令转换器2012表示软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合通过仿真、模拟或任何其他过程允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码2006。

针对图2或图4中的任一图所描述的组件、特征和细节还可任选地用于图1、图3和图5中的任一图中。针对图2、图7或图9中的任一图所描述的组件、特征和细节还可任选地用于图6或图9中的任一图中。此外，本文中针对本文所述的装置中的任一装置所描述的组件、特征和细节还可任选地用于本文中所描述的方法中的任一方法，在各实施例中，可由此类装置和/或可利用此类装置来执行所述方法中的任一方法。

在说明书和权利要求书中，已使用了术语“耦合的”和/或“连接的”及其衍生词。应当理解，这些术语并不旨在作为彼此的同义词。相反，在特定实施例中，可以使用“连接的”来指示两个或更多个元件彼此直接物理和/或电接触。“耦合的”可意味着两个或更多个元件直接物理或电接触。然而，“耦合的”也可意味着两个或更多个元件彼此并不直接接触，但是仍然彼此协作或相互作用。例如，可以通过一个或多个中间组件来将执行单元与寄存器或解码单元耦合。在附图中，箭头用于示出连接和耦合。

在说明书和权利要求书中，可能已使用了术语“逻辑”。如本文中所使用，“逻辑”可以包括硬件、固件、软件，或它们的各种组合。逻辑的示例包括集成电路、专用集成电路、模拟电路、数字电路、编程的逻辑器件、包括指令的存储器设备，等等。在一些实施例中，硬件逻辑可以包括潜在地与其他电路组件一起的晶体管和/或门。在一些实施例中，逻辑可以具体化组件、单元或其他模块。

在以上描述中，为了提供对实施例的透彻理解，已阐述了特定的细节。然而，可以在没有这些特定细节中的一些的情况下来实践其他实施例。本发明的范围不由上文中提供的特定示例确定，而仅由所附权利要求书确定。在其他实例中，已经以框图形式而不是详细地示出公知的电路、结构、设备和操作以避免使对描述的理解变得模糊。

已描述了各种操作和方法。已经在流程图中以相对基础的方式描述了方法中的一些，但是可任选地将操作添加到这些方法中和/或从这些方法中去除操作。例如，可以将附加的微架构细节添加到所描述的处理指令的方法中。另外，尽管已经按某个顺序描述了根据实例实施例的操作，但是该特定的顺序是示例性的。替代实施例可以任选地按不同的顺序来执行这些操作，组合某些操作、使某些操作重叠，等等。

某些操作可由硬件组件执行，或者能以机器可执行或电路可执行指令来具体化，这些机器可执行指令或电路可执行指令可用于使得和/或者导致机器、电路、或硬件组件(例如，处理器、处理器的部分、电路等)利用执行这些操作的指令来编程。这些操作还可任选地由硬件和软件的组合执行。处理器、机器、电路或硬件可包括专用或特定电路或其他逻辑(例如，可能与固件和/或软件组合的硬件)，该专用或特定电路或其他逻辑用于执行和/或处理指令，并且响应于该指令而存储结果。

一些实施例包括制品(例如，计算机程序产品)，所述制品包括机器可读介质。该介质可包括以机器可读形式提供(例如，存储)信息的机制。机器可读介质可提供或在其上存储有指令或指令序列，如果和/或当由机器执行执行所述指令或指令序列时，所述指令或指令序列可操作以使所述机器执行和/或导致所述机器执行本文中所公开的一种或多种操作、方法或技术。机器可读介质可提供(例如，存储)本文中公开的指令的实施例中的一个或多个。

在一些实施例中，机器可读介质可包括有形的和/或非暂态的机器可读存储介质。例如，有形的和/或非暂态的机器可读存储介质可包括，软盘、光存储介质、光盘、光学数据存储设备、CD-ROM、磁盘、磁光盘、只读存储器(ROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、闪存、相变存储器、相变数据存储材料、非易失性存储器、非易失性数据存储设备、非暂态存储器、或非暂态数据存储设备等。非暂态机器可读存储介质不由暂态传播的信号组成。

合适机器的示例包括但不限于，通用处理器、专用处理器、指令处理装置、数字逻辑电路、集成电路等。合适机器的其他示例包括合并了此类处理器、指令处理装置、数字逻辑电路或集成电路的计算设备和其他电子设备。此类计算设备和电子设备的示例包括但不限于，台式计算机、膝上型计算机、笔记本计算机、平板计算机、上网本、智能电话、蜂窝电话、服务器、网络设备(例如，路由器和交换机)、移动互联网设备(MID)、媒体播放器、智能电视、迷你桌上型设备、机顶盒和视频游戏控制器。

贯穿本说明书对例如“一个实施例”、“实施例”、“一个或多个实施例”、“一些实施例”的引用指示，可将特定的特征包括在本发明的实施中，但是不一定要求这么做。类似地，在该描述中，为了使本公开流畅并辅助对各个发明性方面的理解，有时将各种特征一起归组在单个实施例、附图或对它们的描述中。然而，该公开方法不应被解释成反映本发明需要比每项权利要求中所明确记载的特征更多的特征的意图。相反，如所附权利要求所反映，发明性方面在于少于单个的公开实施例的所有特征。因此，在此将遵循具体实施方式的权利要求明确地合并进此具体实施方式中，并且每一项权利要求作为本发明的单独实施例而独立存在。

示例实施例

以下示例关于进一步的实施例。这些示例中的细节可以在一个或多个实施例中的任何地方被使用。

示例1是处理器，该处理器包括多个紧缩数据寄存器以及用于对紧缩的可变长度代码点长度确定指令解码的解码单元。紧缩的可变长度代码点长度确定指令指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。该紧缩的可变长度代码点长度确定指令还指示目的地存储位置。处理器还包括与解码单元和紧缩数据寄存器耦合的执行单元。执行单元用于：响应于紧缩的可变长度代码点长度确定指令而将结果紧缩数据存储在所指示的目的地存储位置中，该结果紧缩数据具有多个紧缩的可变长度代码点中的每一个的长度。

示例2包括示例1的处理器，可任选地在其中，所述指令指示具有多个紧缩的UTF-8代码点的第一源紧缩数据。

示例3包括示例1的处理器，可任选地在其中，所述指令指示多个签名模式，每一个签名模式都对应于可变长度码点的不同长度中的一个长度。

示例4包括示例3的处理器，其中，所述执行单元用于：响应于所述指令，通过将给定的可变长度代码点与多个签名模式中的每一个签名模式比较来确定该给定的可变长度代码点匹配给定的签名模式，并且其中，所述执行单元用于：响应于所述指令而将对应于给定的可变长度码点的给定的签名模式的长度存储在目的地存储位置中。

示例5包括示例3的处理器，其中，所述指令指示具有多个签名模式的第二源紧缩数据，并且其中，所述指令具有立即数，所述立即数指示多个长度，每一个长度对应于多个所述签名模式中的一个签名模式。

示例6包括示例5的处理器，其中，多个签名模式包括四个不同的签名模式，并且其中，立即数具有各自指示这四个签名模式中的不同签名模式的对应长度的四个字段。

示例7包括示例3的处理器，其中，签名模式被存储在处理器的、不是架构寄存器的非易失性存储器中。

示例8包括任何前述示例的处理器，可任选地在其中，所述执行单元用于：响应于所述指令而将每一个长度存储在目的地存储位置中的、与第一源紧缩数据中对应的可变长度代码点的最低有效字节相同的相对位的位置中的字节中。

示例9包括示例8的处理器，其中，所述执行单元用于：响应于所述指令而将表示三字节的长度存储在目的地存储位置中的、与所述第一源紧缩数据中对应的三字节代码点的最低有效字节相同的相对位的位置中的字节中，并将全零存储在目的地存储位置中的、比给定的字节更高有效的两个更高有效的连续字节中。

示例10包括任何前述示例的处理器，可任选地在其中，所述执行单元用于：响应于所述指令而将全二进制一存储在目的地存储位置中的、与第一源紧缩数据的不完整的或无效的可变长度代码点的字节相同的相对位的位置中的字节中。

示例11是由处理器执行的方法。该方法包括：接收紧缩的可变长度代码点长度确定指令。所述紧缩的可变长度代码点长度确定指令指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点，并且所述紧缩的可变长度代码点长度确定指令指示目的地存储位置。该方法包括：响应于紧缩的可变长度代码点长度确定指令而将结果紧缩数据存储在所指示的目的地存储位置中。该结果紧缩数据具有多个紧缩的可变长度代码点中的每一个的长度。

示例12包括示例11的方法，可任选地在其中，接收包括：接收指示具有多个紧缩的UTF-8代码点的第一源紧缩数据的指令。

示例13包括示例11的方法，可任选地在其中，接收包括：接收指示多个签名模式的指令，每一个签名模式都对应于可变长度码点的不同长度中的一个长度。

示例14包括示例13的方法，进一步可任选地包括，通过将给定的可变长度代码点与多个签名模式中的每一个签名模式比较来确定该给定的可变长度代码点匹配给定的签名模式。该方法还可以任选地包括：将对应于给定的可变长度代码点的给定的签名模式的长度存储在目的地存储位置中。

示例15包括示例13的方法，其中，接收包括：接收指示具有多个签名模式的第二源紧缩数据的指令。所述指令可以任选地具有立即数，该立即数指示多个长度，每一个长度对应于多个签名模式中的一个签名模式。

示例16包括示例15的方法，其中，多个签名模式包括四个不同的签名模式。可任选地，四个不同的签名模式中的每一个签名模式都可以存储在至少128位宽的第二源紧缩数据的不同的32位数据元素中。可任选地，立即数可以具有各自对应于四个签名模式中的不同签名模式的四个字段以指示对应的长度。

示例17包括示例13的方法，其中，接收包括：接收指示被存储在处理器的管芯上的非易失性存储器中的签名模式的指令。

示例18包括任一前述示例的方法，可任选地在其中，存储包括：将每一个长度存储在目的地存储位置中的、与第一源紧缩数据中对应的可变长度代码点的最低有效字节相同的相对位的位置中的字节中。

示例19包括示例18的方法，其中，存储包括：将指示两字节的长度存储在目的地存储位置中的、与第一源紧缩数据中对应的两字节代码点的最低有效字节相同的相对位的位置中的给定字节中。可任选地，可将全零存储在目的地存储位置中的、比给定的字节更高有效效的更高有效的连续字节中。

示例20包括任一前述示例的方法，可任选地在其中，存储包括：将全一存储在目的地存储位置中的、与第一源紧缩数据中的不完整的或无效的可变长度代码点的字节相同的相对位的位置中的字节中。

示例21包括示例20的方法，进一步可任选地包括，执行一条或多条其他指令以确定最高有效字节的位置，该最高有效字节的位置存储指示不完整的可变长度代码点的全一。可以任选地使用所确定的最高有效字节的位置来加载可变长度代码点的另一连续的部分。

示例22是用于处理指令的系统，该系统包括互连、与该互连耦合的处理器，以及与该互连耦合的动态随机存取存储器(DRAM)。DRAM存储具有紧缩的可变长度代码点长度确定指令的转码算法。紧缩的可变长度代码点长度确定指令指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。该紧缩的可变长度代码点长度确定指令指示目的地存储位置。紧缩的可变长度代码点长度确定指令如果由处理器执行，则可操作以使该处理器执行包括下列步骤的操作：将结果紧缩数据存储在所指示的目的地存储位置中，该结果紧缩数据具有多个紧缩的可变长度代码点中的每一个的长度。

示例23包括示例22的系统，其中，所述指令指示具有多个紧缩的UTF-8代码点的第一源紧缩数据。可任选地，所述指令可以指示多个签名模式，每一个签名模式对应于UTF-8码点的不同长度中的一个长度。

示例24是一种制品，该制品包括非暂态机器可读存储介质。机器可读存储介质存储紧缩的可变长度代码点长度确定指令。紧缩的可变长度代码点长度确定指令可以指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。该紧缩的可变长度代码点长度确定指令可以指示目的地存储位置。紧缩的可变长度代码点长度确定指令如果由机器执行，则使该机器执行包括下列步骤的操作：将结果紧缩数据存储在所指示的目的地存储位置中，该结果紧缩数据具有多个紧缩的可变长度代码点中的每一个的长度。

示例25包括示例24的制品，其中，所述指令指示包括UTF-8代码点的第一源紧缩数据。可任选地，所述指令可以指示多个签名模式，每一个签名模式都对应于UTF-8码点的不同长度中的一个长度。

示例26是由处理器执行的方法。该方法包括：接收紧缩的可变长度代码点字符位提取指令。紧缩的可变长度代码点字符位提取指令指示第一源紧缩数据，该第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点。指令还指示第二源紧缩数据，该第二源紧缩数据具有来自第一源紧缩数据的经验证的可变长度代码点的紧缩长度，并且该指令指示目的地存储位置。该方法包括：响应于紧缩的可变长度代码点字符位提取指令而将结果紧缩数据存储在所指示的目的地存储位置中。该结果紧缩的数据具有所提取的字符位的紧缩集合。提取的字符位的每一个集合都对应于来自第一源紧缩数据的经验证的可变长度代码点中不同的一个。所提取的字符位的每一个集合都可以足以确定由可变长度代码点表示的字符。

示例27包括示例26的方法，其中，接收包括：接收指示具有多个紧缩的UTF-8代码点的第一源紧缩数据的指令。

示例28包括示例26的方法，其中，接收包括：接收指示多个签名模式的指令，每一个签名模式对应于可变长度码点的不同长度中的一个长度。

示例29包括示例28的方法，进一步可任选地包括，通过使用对应于来自第二源紧缩数据的给定的可变长度代码点的长度来选择来自第一源紧缩数据的给定的可变长度代码点的签名模式。方法还可以任选地包括，通过对给定的可变长度代码点以及所选择的签名模式执行逻辑操作来从该给定的可变长度代码点中去除签名位。

示例30包括示例28的方法，其中，接收包括：接收指示存储在处理器的非易失性存储器中的签名模式的指令。

示例31包括任一前述示例的方法，其中，接收包括：接收指示目的地存储位置的指令，该目的地存储位置的位宽与第一源紧缩数据位宽的四倍一样宽。可任选地，所提取的字符位集合中的每一个集合都可以存储在目的地存储位置中的32位中。

示例32包括任一前述示例的方法，可任选地在其中，第一源紧缩数据是至少128位的，而目的地存储位置是至少512位的。

示例33包括任一前述示例的方法，其中，接收包括：接收指示第二目的地存储位置的指令，并且所述方法进一步包括：将所提取的经验证的可变长度代码点的数量存储在第二目的地存储位置中。

示例34是存储指令的机器可读存储介质，所述指令如果由机器执行，则使该机器执行如权利要求13-21中任一项的方法。

示例35是用于执行如权利要求13-21中任一项的方法的设备。

示例36是设备，该设备包括用于执行如权利要求13-21中的任一项的方法的装置。

示例37是存储指令的机器可读存储介质，所述指令如果由机器执行，则使该机器执行如权利要求26-33中任一项的方法。

示例38是用于执行如权利要求26-33中的任一项的方法的设备。

示例39是设备，该设备包括用于执行如权利要求26-33中的任一项的方法的装置。

示例40是用于执行基本上如本文中所描述指令的设备。

示例41是设备，该设备包括用于执行基本上如本文中所描述指令的装置。

Claims

1.一种处理器，包括：

多个紧缩数据寄存器；

解码单元，用于对紧缩的可变长度代码点长度确定指令解码，所述紧缩的可变长度码点长度确定指令指示第一源紧缩数据，所述第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点，并且所述紧缩的可变长度代码点长度确定指令指示目的地存储位置；以及

执行单元，与所述解码单元以及所述紧缩数据寄存器耦合，所述执行单元用于响应于所述紧缩的可变长度代码点长度确定指令而将结果紧缩数据存储在所指示的目的地存储位置中，所述结果紧缩数据具有所述多个紧缩的可变长度代码点中的每一个的长度。

2.如权利要求1所述的处理器，其特征在于，所述指令指示具有多个紧缩的UTF-8代码点的所述第一源紧缩数据。

3.如权利要求1所述的处理器，其特征在于，所述指令指示多个签名模式，每一个签名模式都对应于所述可变长度码点的不同长度中的一个长度。

4.如权利要求3所述的处理器，其特征在于，所述执行单元用于：响应于所述指令，通过将给定的可变长度代码点与所述多个签名模式中的每一个签名模式比较来确定所述给定的可变长度代码点匹配给定的签名模式，并且其中，所述执行单元用于：响应于所述指令而将对应于所述给定的可变长度代码点的所述给定的签名模式的长度存储在所述目的地存储位置中。

5.如权利要求3所述的处理器，其特征在于，所述指令指示具有所述多个签名模式的第二源紧缩数据，并且其中，所述指令具有立即数，所述立即数指示多个长度，每一个长度对应于所述多个所述签名模式中的一个签名模式。

6.如权利要求5所述的处理器，其特征在于，所述多个签名模式包括四个不同的签名模式，并且其中，所述立即数具有各自指示所述四个签名模式中的不同签名模式的对应长度的四个字段。

7.如权利要求3所述的处理器，其特征在于，所述签名模式被存储在所述处理器的、不是架构寄存器的非易失性存储器中。

8.如权利要求1-7中任一项所述的处理器，其特征在于，所述执行单元用于：响应于所述指令而将每一个长度存储在所述目的地存储位置中的、与所述第一源紧缩数据中对应的可变长度代码点的最低有效字节相同的相对位的位置中的字节中。

9.如权利要求8所述的处理器，其特征在于，所述执行单元用于：响应于所述指令而将指示三字节的长度存储在所述目的地存储位置中的、与所述第一源紧缩数据中对应的三字节代码点的最低有效字节相同的相对位的位置中的给定字节中，并且将全零存储在所述目的地存储位置中的、比所述给定字节更高有效的两个更高有效的连续字节中。

10.如权利要求1-7中任一项所述的处理器，其特征在于，所述执行单元用于：响应于所述指令而将全二进制一存储在所述目的地存储位置中的、与所述第一源紧缩数据的不完整的或无效的可变长度代码点的字节相同的相对位的位置中的字节中。

11.一种由处理器执行的方法，包括：

接收紧缩的可变长度代码点长度确定指令，所述紧缩的可变长度代码点长度确定指令指示第一源紧缩数据，所述第一源紧缩数据具有各自表示字符的多个紧缩的可变长度代码点，并且所述紧缩的可变长度代码点长度确定指令指示目的地存储位置；以及

响应于所述紧缩的可变长度代码点长度确定指令，将结果紧缩数据存储在所指示的目的地存储位置中，所述结果紧缩数据具有所述多个紧缩的可变长度代码点中的每一个的长度。

12.如权利要求11所述的方法，其特征在于，接收包括：接收指示具有多个紧缩的UTF-8代码点的所述第一源紧缩数据的所述指令。

13.如权利要求11所述的方法，其特征在于，接收包括：接收指示多个签名模式的所述指令，每一个签名模式都对应于所述可变长度代码点的不同的长度中的一个长度。

14.如权利要求13所述的方法，进一步包括：

通过将给定的可变长度代码点与所述多个签名模式中的每一个签名模式进行比较来确定所述给定的可变长度代码点匹配给定的签名模式；以及

将对应于所述给定的可变长度代码点的所述给定的签名模式的长度存储在所述目的地存储位置中。

15.如权利要求13所述的方法，其特征在于，接收包括：接收指示第二源紧缩数据的所述指令，所述第二源紧缩数据具有所述多个签名模式，并具有立即数，所述立即数指示多个长度，每一个长度对应于所述多个签名模式中的一个签名模式。

16.如权利要求15所述的方法，其特征在于，所述多个签名模式包括四个不同的签名模式，其中，所述四个不同的签名模式中的每一个签名模式都存储在至少128位宽的所述第二源紧缩数据的不同的32位数据元素中，并且其中，所述立即数具有各自对应于所述四个签名模式中的不同的签名模式的四个字段以指示对应的长度。

17.如权利要求13所述的方法，其特征在于，接收包括：接收指示被存储在所述处理器的管芯上的非易失性存储器中的所述签名模式的所述指令。

18.如权利要求11所述的方法，其特征在于，存储包括：将每一个长度存储在所述目的地存储位置中的、与所述第一源紧缩数据中对应的可变长度代码点的最低有效字节相同的相对位的位置中的字节中。

19.如权利要求18所述的方法，其特征在于，存储包括：将指示两字节的长度存储在所述目的地存储位置中的、与所述第一源紧缩数据中对应的两字节代码点的最低有效字节相同的相对位的位置中的给定字节中，以及

将全零存储在所述目的地存储位置中的、比所述给定字节更高有效的更高有效的连续字节中。

20.如权利要求11所述的方法，其特征在于，存储包括：将全一存储在所述目的地存储位置中的、与所述第一源紧缩数据中的不完整的或无效的可变长度代码点的字节相同的相对位的位置中的字节中。

21.如权利要求20所述的方法，进一步包括：

执行一条或多条其他指令以确定最高有效字节的位置，所述最高有效字节存储全一，并且指示不完整的可变长度码点；以及

使用所确定的所述最高有效字节的位置来加载可变长度代码点的另一连续部分。

22.一种用于处理指令的系统，包括：

互连；

处理器，与所述互连耦合；以及

动态随机存取存储器(DRAM)，与所述互连耦合，所述DRAM存储具有紧缩的可变长度代码点长度确定指令的转码算法，所述紧缩的可变长度代码点长度确定指令指示第一源紧缩操作数，所述第一源紧缩操作数具有各自表示字符的多个紧缩的可变长度代码点，并且所述紧缩的可变长度代码点长度确定指令指示目的地存储位置，所述紧缩的可变长度代码点长度确定指令如果由所述处理器执行，则可操作以使所述处理器执行包括下列步骤的操作：

将结果紧缩数据存储在所指示的目的地存储位置中，所述结果紧缩数据具有所述多个紧缩的可变长度代码点中的每一个的长度。

23.如权利要求22所述的系统，其特征在于，所述指令指示具有多个紧缩的UTF-8代码点的所述第一源紧缩数据，并且其中，所述指令指示多个签名模式，每一个签名模式对应于所述UTF-8代码点的不同的长度中的一个长度。

24.一种设备，包括用于执行根据权利要求11-21中的任一项所述的方法的装置。

25.一种存储指令的机器可读存储介质，如果由机器执行所述指令，则所述指令使所述机器执行如权利要求11-21中任一项所述的方法。