CN108595348B - 无局部性提示的向量存储器访问处理器、方法、系统和指令 - Google Patents
无局部性提示的向量存储器访问处理器、方法、系统和指令 Download PDFInfo
- Publication number
- CN108595348B CN108595348B CN201810179089.0A CN201810179089A CN108595348B CN 108595348 B CN108595348 B CN 108595348B CN 201810179089 A CN201810179089 A CN 201810179089A CN 108595348 B CN108595348 B CN 108595348B
- Authority
- CN
- China
- Prior art keywords
- processor
- memory
- instruction
- vector
- coupled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 title claims abstract description 499
- 238000000034 method Methods 0.000 title abstract description 43
- 230000004044 response Effects 0.000 claims abstract description 51
- 230000002123 temporal effect Effects 0.000 claims description 65
- 238000003860 storage Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 239000000872 buffer Substances 0.000 claims description 10
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 claims description 3
- VOXZDWNPVJITMN-ZBRFXRBCSA-N 17β-estradiol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CCC2=C1 VOXZDWNPVJITMN-ZBRFXRBCSA-N 0.000 description 74
- 238000010586 diagram Methods 0.000 description 51
- 238000006073 displacement reaction Methods 0.000 description 45
- 238000007667 floating Methods 0.000 description 20
- 230000003416 augmentation Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013501 data transformation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000011232 storage material Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/0811—Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0877—Cache access modes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0893—Caches characterised by their organisation or structure
- G06F12/0897—Caches characterised by their organisation or structure with two or more cache hierarchy levels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/80—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
- G06F15/8053—Vector processors
- G06F15/8061—Details on data memory access
- G06F15/8069—Details on data memory access using a cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
- G06F9/30038—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
- G06F2212/1024—Latency reduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/27—Using a specific cache architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/28—Using a specific disk cache architecture
- G06F2212/283—Plural cache memories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6028—Prefetching based on hints or prefetch instructions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Complex Calculations (AREA)
Abstract
本申请公开了无局部性提示的向量存储器访问处理器、方法、系统和指令。一个方面的处理器包括多个紧缩数据寄存器和用于解码无局部性提示的向量存储器访问指令的解码单元。该无局部性提示的向量存储器访问指令指示多个紧缩数据寄存器中具有源紧缩存储器索引的紧缩数据寄存器。该源紧缩存储器索引具有多个存储器索引。该无局部性提示的向量存储器访问指令用于针对将以这些存储器索引进行访问的多个数据元素的无局部性提示提供给处理器。该处理器也包括与解码单元和多个紧缩数据寄存器耦合的执行单元。该执行单元用于响应于该无局部性提示的向量存储器访问指令,访问基于多个存储器索引的多个存储器位置处的多个数据元素。
Description
本申请是2015年6月18日提交的、优先权日为2014年7月18日、申请号为201510341039.4,题为“无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备”的发明专利申请的分案申请。
技术领域
多个实施例涉及处理器。具体来说,多个实施例涉及用于执行诸如聚集和/或分散指令之类的向量存储器访问指令的处理器。
背景技术
处理器通常用于执行用于访问存储器的指令。例如,处理器可执行用于加载或读取来自存储器的数据的加载指令和/或用于向存储器存储或写入数据的存储指令。
附图说明
通过参考以下描述以及用于说明多个实施例的附图,可最佳地理解本发明。在附图中:
图1是适用于实现包括具有高速缓存层次结构和存储器的处理器的多个实施例的系统的实施例的框图。
图2是处理无局部性提示的向量存储器访问指令的实施例的方法实施例的流程框图。
图3是可用于执行无局部性提示的聚集指令的实施例的处理器实施例的框图。
图4是可响应于无局部性提示的聚集指令的实施例而执行的聚集操作的实施例的框图。
图5是可响应于无局部性提示的经掩码聚集指令而执行的经掩码的聚集操作的实施例的框图。
图6是可用于执行无局部性提示的分散指令的实施例的处理器实施例的框图。
图7是示出可响应于无局部性提示的分散指令的实施例而执行的分散操作的实施例的框图。
图8是示出可响应于经掩码的无局部性提示的分散指令的实施例而执行的经掩码的分散操作的实施例的框图。
图9A-9C是示出根据本发明的多个实施例的通用向量友好指令格式及其指令模板的框图。
图10A-B是示出根据本发明的多个实施例的示例性专用向量友好指令格式和操作码字段的框图。
图11A-D是示出根据本发明的多个实施例的示例性专用向量友好指令格式及其多个字段的框图。
图12是寄存器架构的实施例的框图。
图13A是示出有序流水线的实施例以及寄存器重命名的无序发布/执行流水线的实施例的框图。
图13B是处理器核的实施例的框图,该处理器核包括耦合到执行引擎单元的前端单元,并且前端单元和执行引擎单元两者耦合到存储器单元。
图14A是单个处理器核以及它与管芯上互连网络的连接及其第二级(L2)高速缓存的本地子集的实施例的框图。
图14B是图14A的处理器核的部分的展开图的实施例的框图。
图15是可具有多于一个的核,可具有集成存储器控制器并且可具有集成图形器件的处理器的实施例的框图。
图16是计算机架构的第一实施例的框图。
图17是计算机架构的第二实施例的框图。
图18是计算机架构的第三实施例的框图。
图19是计算机架构的第四实施例的框图。
图20是根据本发明的多个实施例的使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
本文中所公开的是无局部性提示的向量存储器访问指令(例如,无局部性提示的聚集指令、无局部性提示的分散指令)、用于执行这些指令的处理器、当执行这些指令时由这些处理器执行的方法以及包含用于执行这些指令的一个或多个处理器的系统。在以下描述中,阐述多个特定细节(例如,特定指令操作、数据格式、处理器配置、微架构细节、操作序列等)。然而,在没有这些特定细节的情况下,也可实施多个实施例。在其他实例中,未详细示出公知的电路、结构和技术,以避免使对本说明书的理解含糊。
图1是系统100的实施例的框图,该系统100包括具有高速缓存层次结构103的处理器102和存储器118。通过耦合机制116(例如,一个或多个互连、芯片组等)将该处理器和存储器耦合在一起。该处理器包括一个或多个核104-1~104-N。在所示出的示例中,该处理器包括第一核(核1)104-1,并且可选地一直到第N核(核N)104-N。该处理器可包括任何期望数目的核(例如,通常范围从1到几百的量级)。核1包括一个或多个执行单元106-1,并且核N包括一个或多个执行单元106-N。
通常,该处理器也可具有一个或多个高速缓存108-1~108-N、110。这些高速缓存可表示比存储器118相对更小且更快类型的存储设备。这些高速缓存也可比存储器更接近于这些核和/或执行单元。这些高速缓存可用于对(例如,由聚集指令112)从存储器带入到处理器中的数据进行高速缓存或存储,以便提供对数据更快的后续访问。当处理器想要从存储器读取数据或向存储器写入数据时,它首先检查来看一下该数据的副本是否被存储在这些高速缓存中。如果在高速缓存中发现了该数据,则处理器可相比从存储器中访问数据更快地从该高速缓存中访问该数据。结果,包括这些高速缓存可有助于减少访问将由处理器处理的数据所需的平均时间量。这转而可有助于改善处理器的性能和/或吞吐量。
再次参考图1,所示出的处理器具有包括多个层级的高速缓存的高速缓存层次结构103。这些高速缓存层级在其与处理器的核和/或执行单元的相对接近度方面有所不同。核1具有第一级高速缓存或层级1(L1)高速缓存108-1。类似地,核N具有L1高速缓存108-N。L1高速缓存中的每一个高速缓存可专用于在其中所包含的对应的核。这些L1高速缓存表示最接近于核的高速缓存层级。该处理器也具有第二级高速缓存或层级2(L2)高速缓存110。L2高速缓存表示下一个最接近于核的高速缓存层级。在一些实现中,可由核共享该L2高速缓存。尽管没有示出,但是可选地可以有离这些核更远的一个或多个附加的高速缓存层级(例如,层级3(L3)高速缓存)。更接近于核的高速缓存(例如,L1高速缓存)通常趋于比离这些核更远的高速缓存(例如,L2高速缓存)更小。通常,离核相对较近的一个或多个高速缓存层级与这些核一起被单片地集成在管芯上,而离这些核较远的一个或多个高速缓存层级可以与这些核一起被单片地集成在管芯上,或者可在管芯外(例如,在安装在主板上的单独芯片中)。从这些核到L1高速缓存的访问趋于比到L2高速缓存更快,从这些核到L2高速缓存的访问趋于比到L3高速缓存更快,并且从这些核到L3高速缓存的访问趋于比到外部存储器更快。
在处理器中包括多个高速缓存的一个原因在于,存储器引用通常具有“局部性”属性。例如,对存储器中数据的引用通常具有时间(temporal)和/或空间(spatial)局部性。时间局部性暗示,当从存储器中的地址访问数据时,在短时期之内可能再次访问相同的数据。作为示例,当需要在环路中重新使用相同的值,在一组计算中重复地使用相同的值或者出于各种理由需要使用相同的值时,可能是这种情况。在这种情况下,在从存储器访问了数据之后,将该数据存储在高速缓存中,使得可更快地从该高速缓存而不是缓慢地从存储器执行对该数据的后续访问是有益的。
空间局部性暗示,当从存储器中的地址访问给定数据时,在短时段之内还可能要访问在邻近地址处的数据。作为示例,两组数据可以是相同内容(例如,图像、表格、数据结构、视频等)的部分,并且可在大约相同的时候进行处理。空间局部性也可出于各种其他原因而发生。高速缓存通过不仅存储最初需要的数据,而且也存储来自邻近地址的邻近数据来利用空间局部性。通常,即便在最初可能仅需要少得多的数据量(amount of data)时,从存储器中访问的并且存储在高速缓存中的数据的最小量也是完整高速缓存行的数据量。例如,即便最初仅需要单个的8位、16位、32位、64位或128位的数据元素,也可能从存储器中访问完整的512位高速缓存行并将其存储在高速缓存中。如果空间局部性存在,这将是有益的,因为在不久的将来也需要被带入到高速缓存中的附加数据是可能的。
为了使高速缓存是有效的,保持它们填充有可能在不久的将来可能需要的相关数据是重要的。在操作期间,通过驱逐在不久的将来不太可能需要的数据来连续地改变多个高速缓存行中的数据,以便为在不久的将来可能需要的数据腾出空间。该领域中为此目的的各种替代算法和策略是已知的。由于时间局部性,此类替代算法和策略通常很大程度上基于数据的年龄(例如,最近使用得最少的指示)。
聚集指令112通过将已从存储器118中聚集的数据元素存储在高速缓存层次结构103中来利用时间和/或空间局部性。许多应用和数据类型在它们的访问流中显示出显著的空间和/或时间局部性,从而通过针对每一个聚集到的数据元素,访问整个高速缓存行的数据量并将其存储在高速缓存行中以受益。然而,不是所有的应用和/或数据类型都具有足够的时间和/或空间局部性以证明针对聚集和/或分散指令来访问完整的高速缓存行并将其存储在高速缓存中是合理的。一些应用和/或数据类型显示将聚集和/或分散的数据元素的很少的空间和/或时间局部性。某些数据元素可能需要一次,但是不太可能在不久的将来再次需要。例如,在某些流式数据应用、高性能计算应用、具有非常稀疏的存储器访问的流的应用和各种其他应用中可能是这种情况。此外,在许多情况下,编程者和/或软件(例如,操作系统)可能能够知晓该情况。一种可能的方法是允许就像将其他数据从存储器带入处理器中那样将此类数据存储在高速缓存中。然而,该方法的缺点在于,将此类数据存储在高速缓存中可能频繁地驱逐可能将由处理器再次使用的已使用数据。同样,该数据可能在高速缓存中保留一段时间,直到最后从这些高速缓存中被驱逐,通常不曾被重新使用。此类数据实际上污染了这些高速缓存,并且占据了否则可能已被用于存储频繁地被使用的数据以增加性能的有价值的存储空间。
此外,聚集指令112是聚集向量的数据元素值(worth of data element)的紧缩型或向量型指令。每一个经聚集的数据元素可能潜在地产生将被存储在高速缓存中的完整的高速缓存行的数据值(worth of data),如果足够的空间和/或时间局部性不存在,这将混合高速缓存污染的量。这对于例如聚集四个、八个、十六个或三十二个数据元素的某些聚集指令可能变得尤其显著。此外,当存在不充足的空间局部性时,针对每一个经聚集的数据元素来访问整个高速缓存行的数据量可能浪费有价值的总线或互连带宽(例如,在去往高速缓存的多个互连上和/或在去往存储器的互连上)。例如,当仅需要单个的8位、16位、32位或64位数据元素,并且仅存在低空间局部性时,可能从存储器检索了512位。访问仅需要的数据元素或至少少于整个高速缓存行的数据量可更好地利用互连带宽。
再次参考图1,处理器和/或多个核中的一个或多个可接收并执行无局部性提示的存储器访问指令114(例如,无局部性提示的向量加载或聚集指令和/或无局部性提示的向量存储或分散指令)。该提示可指示将访问的(例如,经聚集或经分散的)数据具有不充足的空间和/或时间局部性。在一些实施例中,该无局部性提示可以是无时间(no-temporal)局部性提示。在其他实施例中,该无局部性提示可以是无空间(no-temporal)局部性提示。在另一些实施例中,该无局部性提示可以是无时间和无空间局部性提示。在无时间局部性提示的情况下,在一些实施例中,经聚集的多个数据元素可绕过高速缓存层次结构103,并且/或者不被存储在高速缓存层次结构103中,这可有助于减少高速缓存污染。在无空间局部性提示的情况下,在一些实施例中,可利用仅子高速缓存(sub-cache)行的数据量(例如,半个高速缓存行或1/4高速缓存行的数据量)(或在一些情况下,利用单个数据元素的数据量)来执行对多个数据元素的访问,这可有助于减少对互连带宽的浪费和/或减少功耗。有利的是,在存在不充足的空间和/或时间局部性时,该无局部性提示存储器访问指令114可有助于改善性能和/或减少功耗。
图2是处理无局部性提示的向量存储器访问指令的实施例的方法220的实施例的流程框图。在各种实施例中,可由处理器、指令处理装置或其他数字逻辑设备来执行该方法。
该方法包括在框221处接收无局部性提示的向量存储器访问指令。在各个方面,可在处理器处或其部分(例如,指令取出单元、解码单元等)处接收该指令。在各方面中,可从管芯外的源(例如,从存储器、互连等)或从管芯上的源(例如,从指令高速缓存、指令队列等)接收该指令。该无局部性提示的向量存储器访问指令可指定或以其他方式指示具有多个存储器索引的源紧缩存储器索引。在一些实施例中,该无局部性提示的向量存储器访问指令可将针对将利用这些存储器索引进行访问的多个数据元素的无局部性提示提供给处理器。
在框222处,响应于该无局部性提示的向量存储器访问指令,可在基于这些存储器索引的存储器位置处访问这些数据元素。在一些实施例中,该方法可包括以下针对图3-8中的任何图所示或所述的多个操作中的任何操作。
图3是用于执行无局部性提示的聚集指令314的实施例的处理器302的实施例的框图。在本文中,也可将此无局部性提示的聚集指令称为无局部性提示的向量加载指令。在一些实施例中,该处理器可以是通用处理器(例如,在台式计算机、膝上型计算机或其他计算机中所使用类型的通用微处理器或中央处理单元(CPU))。或者,该处理器可以是专用处理器。合适的专用处理器的示例可包括但不限于,图形处理器、网络处理器、通信处理器、加密处理器、协处理器、嵌入式处理器、数字信号处理器(DSP)和控制器(例如,微控制器)。该处理器可以是各种复杂指令集计算(CISC)处理器、精简指令集计算(RISC)处理器、超长指令字(VLIW)处理器中的任何处理器,可以是上述各项的混合,可以是其他类型的处理器,或可具有各种处理器的组合(例如,在不同的核中)。
在操作期间,处理器302可接收无局部性提示的聚集指令314的实施例。例如,可从指令取出单元、指令队列等接收该无局部性提示的聚集指令。该无局部性提示的聚集指令可表示宏指令、汇编语言指令、机器代码指令或处理器的指令集的其他指令或控制信号。
在一些实施例中,该无局部性提示的聚集指令可显式地指定(例如,通过一个或多个字段或一组位)或以其他方式指示(例如,隐式地指示)源紧缩存储器索引334。该指令也可指定或以其他方式指示将在其中存储紧缩数据结果336的目的地操作数或目的地存储位置(例如,目的地紧缩数据寄存器)。
在一些实施例中,如果该无局部性提示的聚集指令可选地是经掩码或经断言的指令,则尽管不是必需的,但是它可指定或以其他方式指示源紧缩数据操作掩码338。如所示出的那样,在一些实施例中,尽管不是必需的,但是可将该源紧缩数据操作掩码存储在紧缩数据操作掩码寄存器集合340中。在其他实施例中,可将该源紧缩数据操作掩码存储在另一存储位置或该指令所指定的位置(例如,字段或立即数)中。如将在下文中进一步讨论的那样,可将该源紧缩数据操作掩码用于对聚集操作进行掩码、断言或有条件控制。
再次参考图3,该处理器包括解码单元或解码器330。该解码单元可接收无局部性提示的聚集指令314,并对其进行解码。该解码单元可输出反映、表示该无局部性提示的聚集指令和/或从该无局部性提示的聚集指令导出的一条或多条微指令、微操作、微代码进入点、经解码指令或控制信号或其他相对较低层级指令或控制信号。这一个或多个较低层级指令或控制信号可通过一个或多个较低层级的(例如,电路层级或硬件层级)的操作来实现较高层级的无局部性提示的聚集指令。可使用各种不同机制来实现该解码单元,包括但不限于,用于实现本领域中已知解码单元的微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)和其他机制。
在一些实施例中,可以可选地使用指令仿真器、转换器、变形器、解释器或其他指令变换模块,来替代将无局部性提示的聚集指令直接提供给解码单元330。各种类型的指令变换模块是在本领域中已知的,并且可在软件、硬件、固件或它们的组合中实现。在一些实施例中,该指令变换模块可位于处理器之外,例如,在单独的管芯上和/或在存储器中(例如,作为静态的、动态的或运行时仿真模块)。作为示例,该指令变换模块可接收可以是第一指令集中的无局部性提示的聚集指令,并且可将该无局部性提示的聚集指令仿真、转换、变形、解释或以其他方式变换为可以是第二不同的指令集中的一个或多个对应的或导出的中间指令或控制信号。可将第二指令集中的这一个或多个中间指令或控制信号提供给解码单元,该解码单元可将它们解码为可由处理器的原生硬件(例如,一个或多个执行单元)执行的一个或多个较低层级指令或控制信号。
再次参考图3,该处理器也包括紧缩数据寄存器集合332。这些紧缩数据寄存器中的每一个可表示用于存储紧缩数据、向量数据或SIMD数据的管芯上存储位置。这些紧缩数据寄存器可表示对软件和/或编程者可见的架构上可见的寄存器(例如,架构寄存器组),并且/或者是由指令集中的多条指令所指示的用于标识多个操作数的寄存器。这些架构寄存器与给定微结构中的其他非架构或非架构上可见的寄存器(例如,临时寄存器、重排序缓冲器、引退寄存器等)形成对比。可使用公知技术,在不同的微架构中,以不同方式实现这些紧缩数据寄存器,并且它们不限于任何特定类型的电路。合适类型的寄存器的示例包括但不限于,专用物理寄存器、使用寄存器重命名的动态分配的物理寄存器以及它们的组合。
在一些实施例中,可以可选地将源紧缩存储器索引334存储在第一紧缩数据寄存器中,并且可以可选地将紧缩数据结果336存储在第二紧缩数据寄存器中。或者,可将其他存储位置用于这些操作数中的一个或多个。此外,在一些实施例中,可以可选地将可用于源操作数的紧缩数据寄存器重新用作目的地操作数(例如,可以可选地将紧缩数据结果336写入或存储在源紧缩存储器索引334上)。
再次参考图3,执行单元306与解码单元330,与紧缩数据寄存器332,并且可选地与紧缩数据操作掩码338耦合。该执行单元可接收表示无局部性提示的聚集指令和/或从无局部性提示的聚集指令导出的一个或多个经解码或以其他方式变换的指令或控制信号。该执行单元也可接收由无局部性提示的聚集指令所指示的源紧缩存储器索引334。在一些情况下,例如如果通用寄存器用于提供用于将存储器索引变换为存储器地址的信息(例如,基址、比例、位移等),则也可以可选地将该执行单元与通用寄存器集合342耦合。
该执行单元可响应于无局部性提示的聚集指令和/或作为其结果(例如,响应于直接或间接地(例如,通过仿真)从该指令中解码出的一个或多个指令或控制信号),访问由源紧缩存储器索引334所指示的存储器中的多个位置。例如,此类访问可包括从由对应的紧缩存储器索引所指示的存储器中的多个位置聚集或以其他方式加载多个数据元素,并且将它们存储在紧缩数据结果336中。在一些实施例中,可以可选地执行经掩码的聚集操作。在一些实施例中,该执行单元可执行针对图4-5中任意一个所示或所述的多个操作中的任意一个操作,但是本发明的范围并不如此受限。
在一些实施例中,可利用无局部性提示来实现该聚集操作。在一些实施例中,可利用无时间局部性提示来实现该聚集操作。在其他实施例中,可利用无空间局部性提示来实现该聚集操作。在另一些实施例中,可利用无时间局部性提示和无空间局部性提示来实现该聚集操作。该执行单元可将无局部性提示的加载操作348提供给一个或多个高速缓存控制器344。在一些实施例中,可能有单个高速缓存层级和单个高速缓存控制器(例如,L1高速缓存控制器)。在其他实施例中,可能有两个或更多高速缓存控制器(例如,L1高速缓存控制器、L2高速缓存控制器以及可选的L3高速缓存控制器)。
在一些实施例中,如果无局部性提示的加载操作348对数据的请求具有无空间局部性提示,并且如果该请求命中高速缓存308,则相关联的高速缓存控制器344可从高速缓存308返回子高速缓存行的数据量352。在各种实施例中,该子高速缓存行的数据量352可以是仅半个高速缓存行(例如,512位高速缓存行中的仅256位)、仅1/4高速缓存行(例如,仅128位)、仅1/8高速缓存行(例如,仅64位)或仅单个数据元素(例如,1个128位、64位、32位、16位或8位的数据元素)。
相反,如果无局部性提示的加载操作348对数据的请求具有无空间局部性提示,并且如果该请求未命中所有的高速缓存308,则可将无局部性提示的加载操作348对数据的请求发送到存储器控制器346。在一些实施例中,该存储器控制器可执行来自存储器(例如,外部存储器)的子高速缓存行的数据访问和返回350。如之前所述,在各种实施例中,该子高速缓存行的数据访问和返回350可以是仅半个高速缓存行(例如,仅256位)、仅1/4高速缓存行(例如,仅128位)、仅1/8高速缓存行(例如,仅64位)或仅单个数据元素(例如,64位、32位、16位或8位的数据元素)。也就是说,该存储器控制器可从存储器加载具有相比一般将用于不具有无局部性提示的加载操作(例如,用于常规聚集指令的加载操作)更小尺寸的访问和数据返回。作为一个具体示例,可将通常用于访问整个512位高速缓存行的数据量的256位总线信号对中的仅一个从存储器控制器发送到动态随机存取存储器(DRAM),所发送的一个是包括所期望的数据元素的那一个。在一些实施例中,可以可选地使用足以包含所期望数据元素的最小尺寸的访问和数据返回。该存储器控制器可将子高速缓存行的数据返回351提供给高速缓存控制器344。高速缓存控制器可将对应的子高速缓存行的数据量352提供给执行单元。在其他实施例中,可在这些互连中的一些而非全部上传送子高速缓存行的数据量。
按照惯例,如果正在访问整个高速缓存行,则地址的多个最低阶位(例如,该地址的最低阶的6位)可以全部为零。相比之下,如果正在访问高速缓存行的仅部分,则这些最低阶位中的一些或全部可以不全部为零,但相反需要它们来指定该高速缓存行中的所期望数据的位置(例如,在一个实施例中,512位高速缓存行中的单个64位、32位、16位或8位的数据元素的位置)。在一些实施例中,也需要在存储器访问中指示数据元素的尺寸。
有利的是,子高速缓存行的数据访问和返回350和/或子高速缓存行的数据返回351和/或子高速缓存行的数据量352中的任意一个或多个可有助于减少在相关联的互连上的被浪费的带宽。这转而可有助于改善处理器速度和/或性能,这在(至少时不时地)易于受存储器访问带宽束缚的应用中尤其如此。在此类情形中,该处理器相比可从存储器获取数据,可能能够更快地处理数据。如果能够更快地从存储器获取所需要的数据,则可改善总的处理器速度和/或性能。使用可用的存储器访问带宽来访问实际感兴趣的更大比例的数据以及更少比例的“尾随的”(“tag along”)空间局部性假设数据,这可在存在低实际空间局部性的时候提供优势。当数据访问具有足够低的空间局部性时,此类较小的访问可能是合适的。此外,这些较小的访问也可有助于减少用于返回所期望的数据元素的功耗。
在一些实施例中,如果无局部性提示的加载操作348对数据的请求具有无时间局部性(例如,非时间的)提示,并且如果该请求未命中高速缓存308,则相关联的高速缓存控制器344可能无法像它通常将针对常规的聚集指令(即,没有无局部性提示的聚集指令)所做的那样,在高速缓存中为所请求的数据分配存储空间。如果有多个高速缓存层级,则用于较高层级高速缓存的高速缓存控制器可将该请求提供给用于(例如,离核较远的)较低层级高速缓存的高速缓存控制器。当高速缓存未命中时,在一些实施例中,每一个高速缓存控制器可能类似地无法在所请求的数据从存储器返回数据时,在其相关联的高速缓存中为所请求的数据分配存储空间。在一些实施例中,如果该数据存在于较低层级的高速缓存中,则可将其返回到执行单元306,而不将其存储在较高层级的高速缓存中的任意一个中。如果该数据不存在于任何高速缓存308中,则可将对该数据的请求提供给存储器控制器346。存储器控制器可从存储器检索所期望的数据;可选地,如果提示也是无空间局部性提示,则检索子高速缓存行的数据量350;否则,如果提示恰好是无时间局部性提示,则检索整个高速缓存行的数据量。该存储器控制器可将经检索的数据提供给高速缓存控制器。在一些实施例中,高速缓存控制器可将该数据提供给执行单元306,而不将经检索的数据存储在高速缓存中。有利的是,省略将该数据存储在高速缓存中,这将有助于减少高速缓存污染和/或可有助于增加处理器性能,并且在数据访问具有足够低的时间局部性时,这可能是合适的。一旦执行单元已接收了所有经请求的数据元素,并且将它们置入紧缩数据结果336中(例如,在紧缩数据寄存器中),则它能以信号传送该指令的完成。
执行单元和/或处理器可包括用于响应于无局部性提示的聚集指令和/或作为该无局部性提示的聚集指定的结果而执行无局部性提示的聚集操作的专用或特定逻辑(例如,潜在地与固件(例如,存储在非易失性存储器中的指令)和/或软件组合的晶体管、集成电路或其他硬件)。作为示例,该执行单元可包括聚集执行单元、聚集和/或分散执行单元、存储器执行单元、存储器访问单元、加载单元、加载和/或存储单元等。
图4是示出可响应于无局部性提示的聚集指令的实施例而执行的聚集操作420的实施例的框图。该聚集指令可指定或以其他方式指示具有多个紧缩存储器索引的源紧缩存储器索引434。在所示出的实施例中有八个存储器索引,但是本发明的范围并不限于此。在所示的实施例中,从最低有效位置(在左边)到最高有效位置(在右边),这些存储器索引的值为134、231、20、135、5、21、30、186。这些值仅是示例。其他实施例可包括更少或更多的存储器索引。通常,源紧缩存储器索引中的存储器索引的数目可以等于源紧缩存储器索引操作数的位的尺寸除以存储器索引中的每一个的位的尺寸。在各种实施例中,该源紧缩存储器索引操作数的宽度可以是64位、128位、256位、512位或1024位,但是本发明的范围并不限于此。在各种实施例中,每一个存储器索引的尺寸可以是16位、32位或64位,但是本发明的范围并不限于此。其他源紧缩存储器索引宽度和存储器索引尺寸也是合适的。
响应于该聚集指令和/或作为该聚集指令的结果,可执行聚集操作420,并且可将紧缩数据结果436存储在目的地存储位置中。在一个方面,该聚集指令可指定或以其他方式指示该目的地存储位置。在一些实施例中,该紧缩数据结果可包括已从由源紧缩存储器索引434的对应存储器索引指示的存储器418中的潜在非连续的存储器位置加载或聚集的多个数据元素。作为示例,可将存储器索引变换为使用共同比例和共同基址的存储器地址(例如,就如存储器地址=存储器索引*比例+基址)。例如,在所示实施例中,存储器索引134可指示存储数据元素B1的存储器位置,存储器索引231可指示存储数据元素B2的存储器位置,以此类推。
在一些实施例中,该聚集操作可包括去往存储器418的子高速缓存行的数据访问450。在一些实施例中,该聚集操作可包括来自该存储器的,并且绕过处理器的多个高速缓存的子高速缓存行的数据返回452。在各种实施例中,子高速缓存行数据访问和返回可访问并返回仅半个高速缓存行(例如,256位)、1/4高速缓存行(例如,128位)、1/8高速缓存行(例如,64位)或单个数据元素(例如,64位、32位、16位或8位的数据元素),而不是访问完整的高速缓存行(例如,512位的高速缓存行)。在一些实施例中,可以不将所返回的数据存储在处理器的任何高速缓存中。
在所示实施例中,该紧缩数据结果包括八个数据元素,但是本发明的范围并不限于此。其他实施例可包括更少或更多的结果数据元素。通常,结果数据元素的数目可以等于该紧缩数据结果的位的宽度除以每一个结果数据元素的位的尺寸,并且/或者等于源紧缩存储器索引中的存储器索引的数目。在各种实施例中,该紧缩数据结果的宽度可以是64位、128位、256位、512位或1024位,但是本发明的范围并不如此受限。在各种实施例中,每一个结果数据元素的尺寸可以是16位、32位或64位,但是本发明的范围并不如此受限。在所示示例中,从最低有效位置(在左边)到最高有效位置(在右边),紧缩数据结果存储数据元素B1到B8。
图5是示出可响应于经掩码的无局部性提示的聚集指令的实施例而执行的经掩码的聚集操作520的实施例的框图。图5中的经掩码操作具有与图4中的未经掩码操作的相似性。为了避免使描述模糊,将主要描述图5中的经掩码操作的不同和/或附加特性而不重复相对于图4中的未经掩码操作的类似或共同的特性。然而,图4中的未经掩码操作的前述特性也可以可选地适用于图5中的经掩码操作,除非声明或以其他方式使之显而易见。
该经掩码的聚集指令可指定或以其他方式指示具有多个紧缩存储器索引的源紧缩存储器索引534。该源紧缩存储器索引和多个存储器索引可以与针对图3-4所描述的那些类似或相同,并且可具有相同的变型和替代。
该经掩码的聚集指令可附加地指定(例如,显式地指定)或以其他方式指示(例如,隐式地指示)源紧缩数据操作掩码538。在本文中也将紧缩数据操作掩码简单地称为操作掩码、断言掩码或掩码。该掩码可表示断言操作数或条件控制操作数,这些操作数可对是否将执行对应操作和/或是否将存储对应结果进行断言、有条件控制或掩码。在一些实施例中,能以每个数据元素的粒度进行掩码或断言,使得可单独地断言或有条件控制对于对应数据元素的不同对的操作,并且/或者可独立地断言或有条件控制对于其他数据元素的不同对的操作。该掩码可包括多个掩码元素、断言元素或条件控制元素。在一个方面,可将这些掩码元素包括在与源紧缩存储器索引的对应存储器索引和/或与结果紧缩数据的对应结果数据元素的一一对应关系中。例如,对应的掩码元素、存储器索引和结果数据元素可占据多个操作数之内的多个相对位置。
如所示出的那样,在一些实施例中,每一个掩码元素可以是单个掩码位。在这些情况下,该掩码可具有针对每一个存储器索引和/或每一个结果数据元素的位。在具有八个存储器索引的源紧缩存储器索引的示例中,并且在每一个掩码元素是单个位的情况下,紧缩数据操作掩码可以是8位宽,并且每一位表示对应于相同的相对操作数位置中的存储器索引的断言或掩码位。例如,在图示中,对应的位置彼此垂直地向上对齐。每一个掩码位的值可控制是否将执行对应的聚集或加载操作和/或是否将存储对应的结果数据元素。每一个掩码位可具有第一值,其用于允许使用对应的存储器索引来执行聚集或加载操作,并且允许将对应的结果数据元素存储在结果紧缩数据中;或者可具有第二不同的值,其用于不允许使用对应的存储器索引来执行聚集或加载操作和/或不允许将对应的结果数据元素存储在结果紧缩数据中。根据一个可能的约定,如图示中所示,被清除为二进制“零”(即,0)的掩码位可表示针对其将不存储结果数据元素的“被掩码掉”(masked out)操作,而设置为二进制“一”(即,1)的掩码位可表示针对其将存储经聚集的结果数据元素的未经掩码的操作。在所示示例中,从最低有效位的位置(在左边)到最高有效位的位置(在右边),掩码位为1、1、0、1、1、1、0、1。这仅是一个说明性示例。在其他实施例中,两个或更多位可以可选地用于每一个掩码元素(例如,每一个掩码元素可具有与每一个对应的源数据元素相同的位的数目,并且所有位或少至单个位可用于确定掩码操作)。
响应于该经掩码的聚集指令和/或作为该经掩码的聚集指令的结果,可执行经掩码的聚集操作520,并且可存储紧缩数据结果536。该紧缩数据结果可以与针对图4所描述的类似或相同,并且可具有相同的变形和替代。在一个方面,可将该紧缩数据结果存储在由经掩码的聚集指令所指示的目的地存储位置中。该经掩码的聚集操作可受制于源紧缩数据操作掩码538的掩码、断言或条件控制,从由对应的存储器索引所指示的存储器518中的多个潜在的不连续位置加载或聚集多个数据元素。在一些实施例中,在紧缩数据操作掩码中对应的掩码位是未经掩码的(例如,在该图示中,设置为二进制1)时,可仅将数据聚集和存储到对应的结果数据元素中。相比之下,对应于被掩码掉的多个掩码元素的结果数据元素可具有不基于该聚集操作的预定值。例如,不需要执行对应的聚集操作,或者如果执行对应的聚集操作,则不需要将对应的经聚集的数据元素存储在对应的结果数据元素中。相反,可将固定值或预定值存储在对应的结果数据元素中。在所示示例中,对应于被掩码掉的掩码元素(在所示示例中具有值0)的结果数据元素具有用于表示此类固定值或预定值的星号(*)。特定的固定值或预定值可取决于用于特定实现的掩码操作类型。在一些实施例中,可使用归零掩码。在归零掩码中,可使被掩码掉的结果数据元素归零(例如,强制使之具有值0)。或者,可以可选地将其他预定值存储在这些被掩码掉的结果数据元素中。在所示示例中,目的地中的紧缩数据结果从最低有效位置(在左边)到最高有效位置(在右边),存储数据元素B1、B2、*、B4、B5、B6、*、B8。
在一些实施例中,该经掩码的聚集操作可包括去往存储器518的子高速缓存行的数据访问550。在一些实施例中,该聚集操作可包括来自该存储器的,并且绕过处理器的多个高速缓存的子高速缓存行的数据返回552。在各种实施例中,子高速缓存行数据访问和返回可访问并返回仅半个高速缓存行(例如,256位)、1/4高速缓存行(例如,128位)、1/8高速缓存行(例如,64位)或单个数据元素(例如,64位、32位、16位或8位的数据元素),而不是访问完整的高速缓存行(例如,512位的高速缓存行)。在一些实施例中,可不将所返回的数据存储在处理器的任何高速缓存中。
图6是用于执行无局部性提示的分散指令614的实施例的处理器602的实施例的框图。在本文中也可将此无局部性提示的分散指令称为无局部性提示的向量存储或写入指令。该处理器602包括解码单元630、执行单元606、紧缩数据寄存器632、源紧缩存储器索引634、紧缩数据操作掩码寄存器640、源紧缩数据操作掩码638、通用寄存器642、一个或多个高速缓存控制器644、一个或多个高速缓存608和存储器控制器646。除非以其他方式指出针对执行分散指令而不是聚集指令,否则处理器602和上述组件可以可选地具有处理器302和图3中对应命名的组件的特性、变型和替代中的一些或全部。为了避免使描述模糊,将主要描述不同和/或附加的特性,而不重复所有共同特性和可能的变型。
在操作期间,处理器602可接收无局部性提示的分散指令614的实施例。该无局部性提示的分散指令可表示处理器的指令集的宏指令、汇编语言指令、机器代码指令或其他指令或控制信号。在一些实施例中,该无局部性提示的分散指令可显式地指定或以其他方式指示源紧缩存储器索引634和源紧缩数据660两者。在一些实施例中,可以可选地将源紧缩存储器索引存储在第一紧缩数据寄存器中,并且可以可选地将源紧缩数据存储在第二紧缩数据寄存器中。在一些实施例中,如果该无局部性提示的分散指令可选地是经掩码或经断言的指令,则尽管不是必需的,但是它也可指定或以其他方式指示源紧缩数据操作掩码638。
解码单元630可对该无局部性提示的分散指令614解码。执行单元可以与解码单元630,与紧缩数据寄存器632,并且可选地与源紧缩数据操作掩码638(例如,掩码寄存器640)耦合。该执行单元可接收源紧缩存储器索引634和源紧缩数据660。该执行单元可响应于该无局部性提示的分散指令或作为其结果(例如,响应于从该指令解码出的一个或多个指令或控制信号),将多个数据元素从源紧缩数据660分散、存储或写入到由源紧缩存储器索引634的对应的紧缩存储器索引所指示的存储器中的多个位置。在一些实施例中,可以可选地执行经掩码的分散操作。在一些实施例中,该执行单元可执行针对图7-8中任意一个所示或所述的多个操作中的任意一个操作,但是本发明的范围并不如此受限。执行单元和/或处理器可包括用于响应于无局部性提示的分散指令和/或作为该无局部性提示的分散指令的结果而执行无局部性提示的分散操作的专用或特定逻辑(例如,潜在地与固件(例如,存储在非易失性存储器中的指令)和/或软件组合的晶体管、集成电路或其他硬件)。作为示例,该执行单元可包括分散执行单元、聚集和/或分散执行单元、存储器执行单元、存储器访问单元、存储单元、加载和/或存储单元等。
在一些实施例中,可利用无局部性提示来实现该分散操作。在一些实施例中,可利用无时间局部性提示来实现该分散操作。在其他实施例中,可利用无空间局部性提示来实现该分散操作。在另一些实施例中,可利用无时间局部性提示和无空间局部性提示来实现该分散操作。该执行单元可将无局部性提示的存储或写入操作662提供给一个或多个高速缓存控制器644。在一些实施例中,可能存在单个高速缓存层级和单个高速缓存控制器(例如,L1高速缓存控制器)。在其他实施例中,可能有两个或更多高速缓存控制器(例如,L1高速缓存控制器、L2高速缓存控制器以及可选的L3高速缓存控制器)。
存在可以凭借其将无时间局部性提示应用于分散指令的各种方式。首先考虑其中分散操作命中较低层级高速缓存(例如,L2或L3高速缓存)的场景。实现不具有无时间局部性提示的常规分散指令的一种可能的方法将是将具有命中的数据元素的高速缓存行从较低层级的高速缓存读取到较高层级的高速缓存(例如,L1高速缓存)中。然后,可执行写入以替换较高层级高速缓存(例如,L1高速缓存)中的该数据元素。然而,此方法的一个可能的缺点在于,它可能使非时间数据被向上带入到高速缓存层次结构中的更高处,并且/或者更接近于处理器。在一些实施例中,可响应于无时间局部性提示的分散指令来执行替代方法。例如,在一些实施例中,在分散操作命中较低层级的高速缓存(例如,L2或L3高速缓存)时,可将该数据元素保持在该较低层级的高速缓存(例如,L2或L3高速缓存)中,并且可执行写入以替换该较低层级高速缓存中的该数据元素,而不将具有命中的数据元素的高速缓存行转移到较高层级的高速缓存(例如,L1高速缓存)。该方法可避免使非时间数据元素被向上带入到高速缓存层次结构中的更高处,并且/或者避免使其更接近于核。在一些实施例中,在该分散操作命中高速缓存(例如,L1高速缓存、L2高速缓存或L3高速缓存)时,可将具有该数据元素的对应的高速缓存行从该高速缓存驱逐到较低层级的高速缓存,或从所有的高速缓存驱逐到存储器。然后,可执行对存储器的写入以替换该数据元素。在另一实施例中,这可以仅是高速缓存行驱逐算法或替换策略中的又一条信息。
如果无局部性提示的分散或存储操作662具有无空间局部性提示,并且如果该请求未命中高速缓存608,则可将相关联的操作提供给存储器控制器646。在一些实施例中,存储器控制器可执行去往存储器的子高速缓存行尺寸的分散、写入或存储操作664。在各种实施例中,该子高速缓存行尺寸的分散、写入或存储操作664可以是仅半个高速缓存行(例如,仅256位)、仅1/4高速缓存行(例如,仅128位)、仅1/8高速缓存行(例如,仅64位)或仅单个数据元素(例如,64位、32位、16位或8位的数据元素)。也就是说,该存储器控制器可利用相比通常将用于没有无局部性提示的写入操作(例如,针对常规分散指令的写入操作)更小尺寸的写入来向存储器写入数据。作为一个具体示例,可将通常用于访问整个512位高速缓存行的数据量的256位总线写入信号对中的仅一个从存储器控制器传送到DRAM,所传送的一个是包括所期望的数据元素的那一个。在一些实施例中,可以可选地使用足以替换所期望数据元素的最小尺寸的写入。有利的是,此类较小的写入可有助于减少在相关联的互联上浪费的带宽。此外,这些较小的写入还可有助于减少功耗。
图7是示出可响应于无局部性提示的分散指令的实施例而执行的分散操作720的实施例的框图。该分散指令可指定或以其他方式指示具有多个紧缩存储器索引的源紧缩存储器索引734。源紧缩存储器索引和多个存储器索引可以与针对图4所描述的那些类似或相同,并且可具有相同的变型和替代。
该分散指令也可指定或以其他方式指示具有将被分散或写入到处理器的多个紧缩数据元素的源紧缩数据760。在所示的实施例中,在源紧缩数据中有被标记为B1到B8的八个紧缩数据元素,但是本发明的范围并不限于此。其他实施例可包括将分散的更少或更多的数据元素。通常,要分散的数据元素的数目可以等于源紧缩存储器索引中的存储器索引的数目。要分散的每一个数据元素可对应于存储器索引中的不同索引(例如,在操作数中的相同的相对位置中)。在各种实施例中,该源紧缩数据的宽度可以是64位、128位、256位、512位或1024位,但是本发明的范围并不如此受限。在各种实施例中,源紧缩数据760中的每一个数据元素的尺寸可以是16位、32位或64位,但是本发明的范围并不如此受限。其他源紧缩数据宽度和数据元素尺寸也是合适的。
可响应于分散指令和/或作为该分散指令的结果而执行该分散操作720。该分散操作可将数据元素从源紧缩数据760存储、写入或分散到由源紧缩存储器索引734中的对应存储器索引所指示的存储器718中的多个位置。可将这些数据元素分散或写入到由这些存储器索引所指示的和/或从这些存储器索引导出的存储器中的位置。在一些实施例中,可将这些数据元素分散到可选地/潜在地非连续的存储器位置。例如,在所示实施例中,存储器索引134指向将数据元素B1写入到其中的存储器位置,以此类推。在一些实施例中,可横跨该源紧缩数据对分散操作进行排序,例如,从最低阶位的位置(如所看到的那样在左边)到最高阶位的位置(如所看到的那样在右边)。在一些实施例中,该无局部性提示的分散操作可包括去往存储器718的子高速缓存行的数据写入764。
图8是示出可响应于经掩码的无局部性提示的分散指令的实施例而执行的经掩码的分散操作820的实施例的框图。图8中的经掩码操作具有与图7中的未经掩码操作的相似性。为了避免使描述模糊,将主要描述图8中的经掩码操作的不同和/或附加特性而不重复相对于图7中的未经掩码操作的类似或共同的特性。然而,图7中的未经掩码操作的上述特性也可选地适用于图8中的经掩码操作,除非声明或以其他方式使之显而易见。
该经掩码的分散指令可指定或以其他方式指示具有多个紧缩存储器索引的源紧缩存储器索引834。源紧缩存储器索引和多个存储器索引可以与针对图3-4和/或图7所描述的那些类似或相同,并且可具有相同的变型和替代。
该经掩码的分散指令也可指定或以其他方式指示具有多个紧缩数据元素的源紧缩数据860。源紧缩数据以及其中的多个数据元素可以与针对图6-7所描述的那些类似或相同,并且可具有相同的变型和替代。
该经掩码的分散指令可附加地指定(例如,显式地指定)或以其他方式指示(例如,隐式地指示)具有多个掩码位或其他掩码元素的源紧缩数据操作掩码838。对于源紧缩数据操作掩码和其中的多个掩码位或掩码元素,除了可将它们用于掩码分散操作而不是聚集操作之外,它们可以与针对图5所描述的那些类似或相同,并且可具有相同的变型和替代。可将这些掩码元素包括在与源紧缩存储器索引的对应存储器索引和/或源紧缩数据的对应数据元素的一一对应关系中(例如,可占据操作数中的相同的相对位置)。每一个掩码位或掩码元素的值可控制是否将针对源紧缩数据的对应数据元素来执行对应的分散或写入操作。每一个掩码位可具有第一值,其用于允许使用对应的存储器索引和源数据元素来执行分散操作;或者可具有第二值,其用于不允许使用对应的存储器索引和源数据元素来执行分散操作。
可响应于经掩码的分散指令和/或作为该经掩码的分散指令的结果,受制于源紧缩数据操作掩码838的断言或条件控制来执行经掩码的分散操作820。该分散操作可受制于源紧缩数据操作掩码838的掩码、断言或条件控制,将多个数据元素从源紧缩数据860存储、写入或分散到由对应的存储器索引所指示的和/或从对应的存储器索引导出的存储器818中的潜在地/可选地非连续位置。在一些实施例中,仅在紧缩数据操作掩码中对应的掩码位是未经掩码的(例如,在该图示中,设置为二进制1)时候,才可将数据分散或存储到存储器位置。相比之下,对应于被掩码掉的多个掩码元素的多个存储器位置可具有不被该分散操作改变的预先存在的值(例如,与在执行该经掩码的分散指令之前在该存储器位置中相同的值)。在所示示例中,对应于被掩码掉的多个掩码元素的多个存储器位置(在所示示例中具有多个0值)具有用于表示此类预先存在的值的星号(*)。在一些实施例中,该无局部性提示的分散操作可包括去往存储器818的子高速缓存行的数据写入864。
在一些实施例中,指令格式可包括操作码或“opcode”。该操作码可表示可用于标识指令和/或要执行的操作(例如,排序索引操作)的多个位或者一个或多个字段。取决于特定指令,指令格式也可包括一个或多个源和/或目的地指定符。作为示例,这些指定符中的每一个可包括多个位或者一个或多个字段以指定本文中别处所描述的寄存器的地址、存储器位置或者其他存储位置。或者,作为这种显式的指定符的替代,一个或多个源和/或目的地可以可选地对于指令是隐式的,而不被显式地指定。此外,在一些情况下,可以隐式地将源重新用作目的地(例如,对于一些实施例中的聚集指令)。此外,该指令格式可以可选地添加多个附加字段,可重叠某些字段,等等。字段不需要包括连续的位序列,相反可由非连续的或分开的位组成。
在一些实施例中,无局部性提示的向量存储器访问指令可以可选地具有与不具有无局部性提示的向量存储器访问指令不同的操作码。例如,无局部性提示的聚集指令可具有与不具有无局部性提示的聚集指令不同的操作码。在一些实施例中,可以可选地为无空间局部性提示和无时间局部性提示的向量存储器访问指令提供不同的操作码。例如,无空间局部性提示的聚集指令、无时间局部性提示的聚集指令、无空间局部性提示的分散指令和无时间局部性提示的分散指令可全都具有不同的操作码。在其他实施例中,无局部性提示的向量存储器访问指令可与不具有无局部性提示的向量存储器访问指令共享操作码。例如,无局部性提示的聚集指令可与不具有局部性提示的聚集指令共享操作码,并且这些指令可包括用于指示是否将该指令解码为具有无局部性提示的一个或多个位。作为另一示例,无局部性提示的分散指令可与不具有局部性提示的分散指令共享操作码,并且这些指令可包括用于指示将解码的指令是否具有无局部性提示的一个或多个位。在一些实施例中,单个位可具有用于指示无局部性提示的第一值(例如,1)或用于指示缺乏无局部性提示的第二值(例如,0)。在其他实施例中,两个位可具有不同值以指示是否有无局部性提示以及该无局部性提示的类型是什么。例如,这两位可具有:第一值(例如,00),用于指示没有无局部性提示;第二值(例如,01),用于指示有无空间局部性提示;第三值(例如,10),用于指示有无时间局部性提示;以及第四值(例如,11),用于指示有无空间和无时间局部性提示。在一些实施例中,无局部性提示的向量存储器访问指令(例如,无局部性提示的聚集或分散指令)可具有比相同的指令集中缺乏该无局部性提示的对应的向量存储器访问指令(例如,不具有无局部性提示的常规聚集或分散指令)更弱的存储器排序模型。
指令集包括一个或多个指令格式。给定的指令格式定义各个字段(位的数目、位的位置等)以指定将要执行的操作(操作码)以及将要对其执行操作的操作数等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有指令格式字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同的位的位置,因为存在更少的、被包括的字段)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。由此,使用给定的指令格式(并且如果经定义,则以该指令格式的指令模板中给定的一个格式)来表达ISA的每条指令,并且ISA的每条指令包括用于指定操作和操作数的字段。例如,示例性ADD(加法)指令具有特定的操作码和指令格式(包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段),并且该ADD指令在指令流中出现将使得在选择特定操作数的操作数字段中具有特定的内容。已经发布和/或公布了参考高级向量扩展(AVX)(AVX1和AVX2)且使用向量扩展(VEX)编码方案的SIMD扩展集(例如,参见2011年10月的64和IA-32架构软件开发手册,并且参见2011年6月的高级向量扩展编程参考)。
示例性指令格式
能以不同的格式来具体化本文中所描述的指令的多个实施例。另外,在下文中详述示例性系统、架构和流水线。指令的多个实施例可在此类系统、架构和流水线上执行,但是不限于详述的那些系统、架构、以及流水线。
VEX指令格式
VEX编码允许指令具有多于两个的操作数,并且允许SIMD向量寄存器比128位长。VEX前缀的使用提供了三操作数(或更多操作数)的句法。例如,先前的两操作数指令执行覆盖源操作数的操作(诸如,A=A+B)。VEX前缀的使用使操作数能够执行非破坏性操作,诸如A=B+C。
图9A示出示例性AVX指令格式,包括VEX前缀902、实操作码字段930、MoD R/M字节940、SIB字节950、位移字段962以及IMM8 972。图9B示出来自图9A的哪些字段构成完整操作码字段974和基础操作字段942。图9C示出来自图9A的哪些字段构成寄存器索引字段944。
VEX前缀(字节0-2)902以三字节形式进行编码。第一字节是格式字段940(VEX字节0,位[7:0]),该格式字段940包含显式的C4字节值(用于区分C4指令格式的唯一值)。第二-第三字节(VEX字节1-2)包括提供专用能力的多个位字段。具体而言,REX字段905(VEX字节1,位[7-5])由VEX.R位字段(VEX字节1,位[7]–R)、VEX.X位字段(VEX字节1,位[6]–X)以及VEX.B位字段(VEX字节1,位[5]–B)组成。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx以及bbb)进行编码,由此可通过增加VEX.R、VEX.X以及VEX.B来形成Rrrr、Xxxx以及Bbbb。操作码映射字段915(VEX字节1,位[4:0]–mmmmm)包括对隐含的前导操作码字节进行编码的内容。W字段964(VEX字节2,位[7]–W)——由记号VEX.W表示,并且提供取决于该指令而不同的功能。VEX.vvvv 920(VEX字节2,位[6:3]-vvvv)的作用可包括如下:1)VEX.vvvv编码第一源寄存器操作数且对具有两个或更多源操作数的指令是有效的,第一源寄存器操作数以反转(1补码)形式被指定;2)VEX.vvvv编码目的地寄存器操作数,目的地寄存器操作数针对特定向量位移以1补码的形式被指定;或者3)VEX.vvvv不编码任何操作数,保留该字段,并且应当包含1111b。如果VEX.L 968尺寸字段(VEX字节2,位[2]-L)=0,则它指示128位向量;如果VEX.L=1,则它指示256位向量。前缀编码字段925(VEX字节2,位[1:0]-pp)提供了用于基础操作字段的附加位。
实操作码字段930(字节3)还被称为操作码字节。操作码的部分在该字段中被指定。
MOD R/M字段940(字节4)包括MOD字段942(位[7-6])、Reg字段944(位[5-3])和R/M字段946(位[2-0])。Reg字段944的作用可包括如下:对目的地寄存器操作数或源寄存器操作数(Rrrr的rrr)进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段946的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)——比例字段950(字节5)的内容包括用于存储器地址生成的SS952(位[7-6])。先前已经针对寄存器索引Xxxx和Bbbb参考了SIB.xxx 954(位[5-3])和SIB.bbb 956(位[2-0])的内容。
位移字段962和立即数字段(IMM8)972包含地址数据。
通用向量友好指令格式
向量友好指令格式是适于向量指令(例如,存在专用于向量操作的某些字段)的指令格式。尽管描述了其中通过向量友好指令格式来支持向量和标量运算两者的实施例,但是替代实施例仅使用通过向量友好指令格式的向量运算。
图10A-10B是示出根据本发明的多个实施例的通用向量友好指令格式及其指令模板的框图。图10A是示出根据本发明的多个实施例的通用向量友好指令格式及其A类指令模板的框图;而图10B是示出根据本发明的多个实施例的通用向量友好指令格式及其B类指令模板的框图。具体而言,针对通用向量友好指令格式1000定义A类和B类指令模板,两者包括无存储器访问1005的指令模板和存储器访问1020的指令模板。在向量友好指令格式的上下文中的术语“通用”是指不束缚于任何专用指令集的指令格式。
尽管将描述其中向量友好指令格式支持以下情况的本发明的多个实施例,即:64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16个双字尺寸的元素或者替代地8个四字尺寸的元素组成);64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸);32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸);以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸);但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图10A中的A类指令模板包括:1)在无存储器访问1005的指令模板内,示出无存储器访问的完全舍入控制型操作1010的指令模板以及无存储器访问的数据变换型操作1015的指令模板;以及2)在存储器访问1020的指令模板内,示出存储器访问的时间1025的指令模板和存储器访问的非时间1030的指令模板。图10B中的B类指令模板包括:1)在无存储器访问1005的指令模板内,示出无存储器访问的写掩码控制的部分舍入控制型操作1012的指令模板以及无存储器访问的写掩码控制的vsize型操作1017的指令模板;以及2)在存储器访问1020的指令模板内,示出存储器访问的写掩码控制1027的指令模板。
通用向量友好指令格式1000包括以下列出的按照在图10A-10B中示出的顺序的如下字段。
格式字段1040——该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式,并且由此标识指令在指令流中以向量友好指令格式出现。由此,该字段对于仅具有通用向量友好指令格式的指令集是不需要的,在这个意义上该字段是任选的。
基础操作字段1042——其内容区分不同的基础操作。
寄存器索引字段1044——其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如,32x512、16x128、32x1024、64x1024)个寄存器组中选择N个寄存器。尽管在一个实施例中,N可高达三个源和一个目的地寄存器,但是替代实施例可支持更多或更少的源和目的地寄存器(例如,可支持高达两个源,其中这些源中的一个源还用作目的地,可支持高达三个源,其中这些源中的一个源还用作目的地,可支持高达两个源和一个目的地)。
修饰符(modifier)字段1046——其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开;即在无存储器访问1005的指令模板与存储器访问1020的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次结构(在一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器访问操作不这样(例如,源和/或目的地是寄存器)。尽管在一个实施例中,该字段还在三种不同的方式之间选择以执行存储器地址计算,但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段1050——其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中,该字段被划分为类字段1068、α字段1052和β字段1054。扩充操作字段1050允许在单条指令而非2、3或4条指令中执行多组共同的操作。
比例字段1060——其内容允许用于存储器地址生成(例如,用于使用2比例*索引+基址的地址生成)的索引字段的内容的按比例缩放。
位移字段1062A——其内容用作存储器地址生成的部分(例如,用于使用2比例*索引+基址+位移的地址生成)。
位移因数字段1062B(注意,位移字段1062A直接在位移因数字段1062B上的并置指示使用一个或另一个)——其内容用作地址生成的部分,它指定通过存储器访问的尺寸(N)按比例缩放的位移因数,其中N是存储器访问中的字节数量(例如,用于使用2比例*索引+基址+按比例缩放的位移的地址生成)。忽略冗余的低阶位,并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成在计算有效地址时所使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段1074(稍后在本文中描述)和数据操纵字段1054C确定。位移字段1062A和位移因数字段1062B可以不用于无存储器访问1005的指令模板和/或不同的实施例可实现两者中的仅一个或不实现两者中的任一个,在这个意义上,位移字段1062A和位移因数字段1062B是任选的。
数据元素宽度字段1064——其内容区分将使用多个数据元素宽度中的哪一个(在一些实施例中,用于所有指令;在其他实施例中,用于指令中的仅一些)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持数据元素宽度,则该字段是不需要的,在这个意义上该字段是任选的。
写掩码字段1070——其内容在每一数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码操作,而B类指令模板支持合并写掩码操作和归零写掩码操作两者。当合并时,向量掩码允许在执行任何操作期间保护目的地中的任何元素集免于更新(由基础操作和扩充操作指定);在另一实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相比之下,当归零时,向量掩码允许在执行任何操作期间使目的地中的任何元素集归零(由基础操作和扩充操作指定);在一个实施例中,目的地的元素在对应掩码位具有0值时被设为0。该功能的子集是控制执行的操作的向量长度的能力(即,从第一个到最后一个要修改的元素的跨度),然而,被修改的元素不一定要是连续的。由此,写掩码字段1070允许部分向量操作,这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段1070的内容选择了多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此,写掩码字段1070的内容间接地标识了要执行的掩码操作)的本发明的实施例,但是替代地或附加地,替代实施例允许掩码写字段1070的内容直接地指定要执行的掩码操作。
立即数字段1072——其内容允许对立即数的指定。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在,在这个意义上该字段是任选的。
类字段1068——其内容在不同类的指令之间进行区分。参考图10A-B,该字段的内容在A类和B类指令之间进行选择。在图10A-B中,圆角方形用于指示专用值存在于字段中(例如,在图10A-B中分别用于类字段1068的A类1068A和B类1068B)。
A类指令模板
在A类非存储器访问1005的指令模板的情况下,α字段1052被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的舍入型操作1010和无存储器访问的数据变换型操作1015的指令模板分别指定舍入1052A.1和数据变换1052A.2)的RS字段1052A,而β字段1054区分要执行指定类型的操作中的哪一种。在无存储器访问1005指令模板中,比例字段1060、位移字段1062A以及位移因数字段1062B不存在。
无存储器访问的指令模板——完全舍入控制型操作
在无存储器访问的完全舍入控制型操作1010的指令模板中,β字段1054被解释为其内容提供静态舍入的舍入控制字段1054A。尽管在本发明的所述实施例中,舍入控制字段1054A包括抑制所有浮点异常(SAE)字段1056和舍入操作字段1058,但是替代实施例可支持、可将这两个概念都编码成相同的字段或者仅具有这些概念/字段中的一个或另一个(例如,可仅有舍入操作字段1058)。
SAE字段1056——其内容区分是否停用异常事件报告;当SAE字段1056的内容指示启用抑制时,给定指令不报告任何种类的浮点异常标志且不唤起任何浮点异常处理程序。
舍入操作字段1058——其内容区分执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入、以及就近舍入)。由此,舍入操作字段1058允许在每一指令的基础上改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作字段1058的内容优先于该寄存器值。
无存储器访问的指令模板——数据变换型操作
在无存储器访问的数据变换型操作1015的指令模板中,β字段1054被解释为数据变换字段1054B,其内容区分要执行多个数据变换中的哪一个(例如,无数据变换、混合、广播)。
在A类存储器访问1020的指令模板的情况下,α字段1052被解释为驱逐提示字段1052B,其内容区分要使用驱逐提示中的哪一个(在图10A中,对于存储器访问时间1025的指令模板和存储器访问非时间1030的指令模板分别指定时间的1052B.1和非时间的1052B.2),而β字段1054被解释为数据操纵字段1054C,其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如,无操纵、广播、源的向上转换、以及目的地的向下转换)。存储器访问1020的指令模板包括比例字段1060以及任选的位移字段1062A或位移因数字段1062B。
向量存储器指令使用转换支持来执行来自存储器的向量加载和去往存储器的向量存储。如同寻常的向量指令,向量存储器指令以数据元素式的方式往/返于存储器传输数据,其中实际传输的元素由被选为写掩码的向量掩码的内容来规定。
存储器访问的指令模板——时间的
时间的数据是可能足够快地重新使用以通过高速缓存操作受益的数据。然而,这是提示,且不同的处理器可以不同的方式实现它,包括完全忽略该提示。
存储器访问的指令模板——非时间的
非时间的数据是不太可能足够快地重新使用以从第一级高速缓存中的高速缓存操作受益且应当被给予驱逐优先级的数据。然而,这是提示,且不同的处理器可以不同的方式实现它,包括完全忽略该提示。
B类指令模板
在B类指令模板的情况下,α字段1052被解释为写掩码控制(Z)字段1052C,其内容区分由写掩码字段1070控制的写掩码操作应当是合并还是归零。
在B类非存储器访问1005的指令模板的情况下,β字段1054的部分被解释为RL字段1057A,其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的写掩码控制部分舍入控制类型操作1012的指令模板和无存储器访问的写掩码控制VSIZE型操作1017的指令模板分别指定舍入1057A.1和向量长度(VSIZE)1057A.2),而β字段1054的其余部分区分要执行指定类型的操作中的哪一种。在无存储器访问1005的指令模板中,比例字段1060、位移字段1062A以及位移因数字段1062B不存在。
在无存储器访问的写掩码控制的部分舍入控制型操作1012的指令模板中,β字段1054的其余部分被解释为舍入操作字段1059A,并且停用异常事件报告(给定指令不报告任何种类的浮点异常标志且不唤起任何浮点异常处理程序)。
舍入操作字段1059A——正如舍入操作字段1058,其内容区分执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入、以及就近舍入)。由此,舍入操作字段1059A允许在每一指令的基础上改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作字段1059A的内容优先于该寄存器值。
在无存储器访问的写掩码控制VSIZE型操作1017的指令模板中,β字段1054的其余部分被解释为向量长度字段1059B,其内容区分要执行多个数据向量长度中的哪一个(例如,128字节、256字节、或512字节)。
在B类存储器访问1020的指令模板的情况下,β字段1054的部分被解释为广播字段1057B,其内容区分是否要执行广播型数据操纵操作,而β字段1054的其余部分被解释为向量长度字段1059B。存储器访问1020的指令模板包括比例字段1060、以及任选的位移字段1062A或位移因数字段1062B。
针对通用向量友好指令格式1000,示出完整操作码字段1074包括格式字段1040、基础操作字段1042以及数据元素宽度字段1064。尽管示出了其中完整操作码字段1074包括所有这些字段的一个实施例,但是在不是支持所有这些字段的实施例中,完整操作码字段1074包括少于所有的这些字段。完整操作码字段1074提供操作码(opcode)。
扩充操作字段1050、数据元素宽度字段1064以及写掩码字段1070允许在每一指令的基础上以通用向量友好指令格式指定这些特征。
写掩码字段和数据元素宽度字段的组合创建各种类型的指令,因为这些指令允许基于不同的数据元素宽度应用该掩码。
在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中,不同处理器或者处理器内的不同核可支持仅A类、仅B类或两类。举例而言,旨在用于通用计算的高性能通用无序核可仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类,并且旨在用于两者的核可支持两者(当然,具有来自两类的模板和指令的一些混合、但是并非来自两类的所有模板和指令的核在本发明的范围内)。同样,单个处理器可包括多个核,它们全都支持相同的类,或者在它们中间,不同的核支持不同的类。举例而言,在具有单独的图形核和通用核的处理器中,旨在主要用于图形和/或科学计算的图形核中的一个可仅支持A类,而通用核中的一个或多个可以是具有旨在用于通用计算的仅支持B类的无序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或无序核。当然,在本发明的不同实施例中,来自一类的特征也可在其他类中实现。可使以高级语言撰写的程序将(例如,恰及时地编译或者静态编译)为各种不同的可执行形式,包括:1)仅具有用于执行的目标处理器所支持的类的指令的形式;或者2)具有使用所有类的指令的不同组合而编写的替代例程,并且具有选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控制流代码的形式。
示例性专用向量友好指令格式
图11是示出根据本发明的多个实施例的示例性专用向量友好指令格式的框图。图11示出专用向量友好指令格式1100,其指定位置、尺寸、解释和字段的次序、以及那些字段中的一些字段的值,在这个意义上,该向量友好指令格式1100是专用的。专用向量友好指令格式1100可用于扩展x86指令集,并且由此,字段中的一些类似于在现有x86指令集及其扩展(例如,AVX)中使用的那些字段或与之相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段、以及立即数字段一致。示出来自图10的字段,来自图11的字段映射到来自图10的字段。
应当理解,虽然出于说明的目的,在通用向量友好指令格式1000的上下文中参考专用向量友好指令格式1100描述了本发明的多个实施例,但是本发明不限于专用向量友好指令格式1100,除非另有声明。例如,通用向量友好指令格式1000构想各种字段的各种可能的尺寸,而专用向量友好指令格式1100示出为具有特定尺寸的字段。作为具体示例,尽管在专用向量友好指令格式1100中,数据元素宽度字段1064示出为一位字段,但是本发明不限于此(即,通用向量友好指令格式1000构想数据元素宽度字段1064的其他尺寸)。
通用向量友好指令格式1000包括以下列出的按照图11A中示出的顺序的如下字段。
EVEX前缀(字节0-3)1102——以四字节形式进行编码。
格式字段1040(EVEX字节0,位[7:0])——第一字节(EVEX字节0)是格式字段1040,并且它包含0x62(在本发明的一个实施例中用于区分向量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段1105(EVEX字节1,位[7-5])——由EVEX.R位字段(EVEX字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及(1057BEX字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能,并且使用1补码的形式进行编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx、以及bbb)进行编码,由此可通过增加EVEX.R、EVEX.X以及EVEX.B来形成Rrrr、Xxxx以及Bbbb。
REX’字段1110——这是REX’字段的第一部分,并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1,位[4]–R’)。在本发明的一个实施例中,该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与实操作码字节是62的BOUND指令进行区分,但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11;本发明的替代实施例不以反转的格式存储该指示的位以及以下的其他指示的位。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.R’、EVEX.R以及来自其他字段的其他RRR来形成R’Rrrr。
操作码映射字段1115(EVEX字节1,位[3:0]–mmmm)——其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。
数据元素宽度字段1064(EVEX字节2,位[7]–W)——由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。
EVEX.vvvv 1120(EVEX字节2,位[6:3]-vvvv)——EVEX.vvvv的作用可包括如下:1)EVEX.vvvv编码第一源寄存器操作数且对具有两个或更多源操作数的指令是有效的,第一源寄存器操作数以反转(1补码)的形式被指定;2)EVEX.vvvv对目的地寄存器操作数编码,该目的地寄存器操作数针对特定向量位移以1补码的形式被指定;或者3)EVEX.vvvv不对任何操作数编码,保留该字段,并且应当包含1111b。由此,EVEX.vvvv字段1120对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令,额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。
EVEX.U 1068类字段(EVEX字节2,位[2]-U)——如果EVEX.U=0,则它指示A类或EVEX.U0;如果EVEX.U=1,则它指示B类或EVEX.U1。
前缀编码字段1125(EVEX字节2,位[1:0]-pp)——提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,这也具有压缩SIMD前缀的益处(EVEX前缀只需要2位,而不是需要字节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码成SIMD前缀编码字段;并且在运行时,在提供给解码器的PLA之前被扩展成传统SIMD前缀(因此,该PLA可执行传统格式和EVEX格式的这些传统指令,而无需修改)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展,但是为了一致性,某些实施例以类似的方式扩展,但允许由这些传统SIMD前缀指定不同的含义。替代实施例可重新设计PLA以支持2位的SIMD前缀编码,并因此不需要扩展。
α字段1052(EVEX字节3,位[7]–EH,也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N;也以α示出)——如先前所述,该字段是针对上下文的。
β字段1054(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;也以βββ示出)——如先前所述,该字段是针对上下文的。
REX’字段1110——这是REX’字段的其余部分,并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。
写掩码字段1070(EVEX字节3,位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器索引,如先前所述。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现,包括使用硬连线到所有的硬件或者绕过掩码硬件的硬件)。
实操作码字段1130(字节4)还被称为操作码字节。操作码的部分在该字段中被指定。
MOD R/M字段1140(字节5)包括MOD字段1142、Reg字段1144和R/M字段1146。如先前所述的,MOD字段1142的内容将存储器访问和非存储器访问操作区分开。Reg字段1144的作用可被归结为两种情形:对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段1146的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)——如先前所述的,比例字段1050的内容用于存储器地址生成。SIB.xxx 1154和SIB.bbb 1156——先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。
位移字段1062A(字节7-10)——当MOD字段1142包含10时,字节7-10是位移字段1062A,并且它与传统32位位移(disp32)一样地工作,并且以字节粒度工作。
位移因数字段1062B(字节7)——当MOD字段1142包含01时,字节7是位移因数字段1062B。该字段的位置与传统x86指令集8位位移(disp8)的位置相同,它以字节粒度工作。由于disp8是符号扩展的,因此它仅能在-128和127字节偏移量之间寻址;在64字节高速缓存行的方面,disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位;由于常常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和disp32对比,位移因数字段1062B是对disp8的重新解释;当使用位移因数字段1062B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移,但具有大得多的范围)。此类压缩位移基于有效位移是存储器访问的粒度的倍数的假设,并且由此,地址偏移量的冗余低阶位不需要被编码。换句话说,位移因数字段1062B替代传统x86指令集的8位位移。由此,位移因数字段1062B以与x86指令集8位位移相同的方式(因此在ModRM/SIB编码规则中没有变化)进行编码,唯一的不同在于,将disp8超载至disp8*N。换句话说,在编码规则或编码长度中没有变化,而仅在通过硬件对位移值的解释中有变化(这需要按存储器操作数的尺寸按比例缩放位移量以获得字节式地址偏移量)。
立即数字段1072如先前所述地操作。
完整操作码字段
图11B是示出根据本发明的一个实施例的构成完整操作码字段1074的具有专用向量友好指令格式1100的字段的框图。具体而言,完整操作码字段1074包括格式字段1040、基础操作字段1042、以及数据元素宽度(W)字段1064。基础操作字段1042包括前缀编码字段1125、操作码映射字段1115以及实操作码字段1130。
寄存器索引字段
图11C是示出根据本发明的一个实施例的构成寄存器索引字段1044的具有专用向量友好指令格式1100的字段的框图。具体而言,寄存器索引字段1044包括REX字段1105、REX’字段1110、MODR/M.reg字段1144、MODR/M.r/m字段1146、VVVV字段1120、xxx字段1154以及bbb字段1156。
扩充操作字段
图11D是示出根据本发明的一个实施例的构成扩充操作字段1050的具有专用向量友好指令格式1100的字段的框图。当类(U)字段1068包含0时,它表明EVEX.U0(A类1068A);当它包含1时,它表明EVEX.U1(B类1068B)。当U=0且MOD字段1142包含11(表明无存储器访问操作)时,α字段1052(EVEX字节3,位[7]–EH)被解释为rs字段1052A。当rs字段1052A包含1(舍入1052A.1)时,β字段1054(EVEX字节3,位[6:4]–SSS)被解释为舍入控制字段1054A。舍入控制字段1054A包括一位的SAE字段1056和两位的舍入操作字段1058。当rs字段1052A包含0(数据变换1052A.2)时,β字段1054(EVEX字节3,位[6:4]–SSS)被解释为三位的数据变换字段1054B。当U=0且MOD字段1142包含00、01或10(表明存储器访问操作)时,α字段1052(EVEX字节3,位[7]–EH)被解释为驱逐提示(EH)字段1052B且β字段1054(EVEX字节3,位[6:4]–SSS)被解释为三位的数据操纵字段1054C。
当U=1时,α字段1052(EVEX字节3,位[7]–EH)被解释为写掩码控制(Z)字段1052C。当U=1且MOD字段1142包含11(表明无存储器访问操作)时,β字段1054的部分(EVEX字节3,位[4]–S0)被解释为RL字段1057A;当它包含1(舍入1057A.1)时,β字段1054的其余部分(EVEX字节3,位[6-5]–S2-1)被解释为舍入控制字段1054A,而当RL字段1057A包含0(VSIZE1057.A2)时,β字段1054的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段1059B(EVEX字节3,位[6-5]–L1-0)。当U=1且MOD字段1142包含00、01或10(表明存储器访问操作)时,β字段1054(EVEX字节3,位[6:4]–SSS)被解释为向量长度字段1059B(EVEX字节3,位[6-5]–L1-0)和广播字段1057B(EVEX字节3,位[4]–B)。
示例性寄存器架构
图12是根据本发明的一个实施例的寄存器架构1200的框图。在所示出的实施例中,有32个512位宽的向量寄存器1210;这些寄存器被引用为zmm0到zmm31。较低的16zmm寄存器的较低阶的256个位覆盖在寄存器ymm0-15上。较低的16zmm寄存器的较低阶的128个位(ymm寄存器的较低阶的128个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式1100对这些覆盖的寄存器组操作,如下列表格所示。
换句话说,向量长度字段1059B在最大长度与一个或多个其他较短长度之间进行选择,其中每一这种较短长度是前一长度的一半;并且不具有向量长度字段1059B的指令模板以最大向量长度操作。此外,在一个实施例中,专用向量友好指令格式1100的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作;取决于实施例,较高阶数据元素位置保持与在指令之前相同或者归零。
写掩码寄存器1215——在所示的实施例中,存在8个写掩码寄存器(k0至k7),每一个写掩码寄存器的尺寸是64位。在替代实施例中,写掩码寄存器1215的尺寸是16位。如先前所述的,在本发明的一个实施例中,向量掩码寄存器k0无法用作写掩码;当正常指示k0的编码用作写掩码时,它选择硬连线的写掩码0xFFFF,从而有效地停用该指令的写掩码操作。
通用寄存器1225——在所示出的实施例中,有十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点栈寄存器组(x87栈)1245,在其上面重叠了MMX紧缩整数平坦寄存器组1250——在所示出的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点运算的八元素栈;而使用MMX寄存器来对64位紧缩整数数据执行操作,以及为在MMX和XMM寄存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用较宽的或较窄的寄存器。另外,本发明的替代实施例可以使用更多、更少或不同的寄存器组和寄存器。
示例性核架构、处理器和计算机架构
处理器核可以用出于不同目的的不同方式在不同的处理器中实现。例如,此类核的实现可包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用无序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用无序核的CPU;以及2)包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核的协处理器。此类不同处理器导致不同的计算机系统架构,其可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,这样的协处理器有时被称为诸如集成图形和/或科学(吞吐量)逻辑之类的专用逻辑,或被称为专用核);以及4)可以将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上的芯片上系统。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
示例性核架构
有序和无序核框图
图13A是示出根据本发明的多个实施例的示例性有序流水线和示例性的寄存器重命名的无序发布/执行流水线两者的框图。图13B是示出根据本发明的多个实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框图。图13A-B中的实线框示出了有序流水线和有序核,而可选增加的虚线框示出了寄存器重命名的、无序发布/执行流水线和核。考虑到有序方面是无序方面的子集,将描述无序方面。
在图13A中,处理器流水线1300包括取出级1302、长度解码级1304、解码级1306、分配级1308、重命名级1310、调度(也被称为分派或发布)级1312、寄存器读取/存储器读取级1314、执行级1316、写回/存储器写入级1318、异常处理级1322和提交级1324。
图13B示出处理器核1390,其包括耦合至执行引擎单元1350的前端单元1330,该前端单元和执行引擎单元两者均耦合至存储器单元1370。核1390可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或其他核类型。作为又一选项,核1390可以是专用核,例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。
前端单元1330包括耦合到指令高速缓存单元1334的分支预测单元1332,该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)1336,该指令转换后备缓冲器耦合到指令取出单元1338,指令取出单元耦合到解码单元1340。解码单元1340(或解码器)可解码指令,并生成从原始指令解码出的、或以其他方式反映原始指令的或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元1340可使用各种不同的机制来实现。合适的机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核1390包括(例如,在解码单元1340中或以其他方式在前端单元1330内的)用于存储某些宏指令的微代码的微代码ROM或其他介质。解码单元1340耦合至执行引擎单元1350中的重命名/分配器单元1352。
执行引擎单元1350包括耦合到引退单元1354和一个或多个调度器单元的集合1356的重命名/分配器单元1352。调度器单元1356表示任意数量的不同调度器,包括预留站、中央指令窗等。调度器单元1356耦合到物理寄存器组单元1358。每个物理寄存器组单元1358表示一个或多个物理寄存器组,其中不同的物理寄存器组保存一个或多个不同的数据类型(诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)、状态(诸如,作为将要执行的下一个指令的地址的指令指针)等。在一个实施例中,物理寄存器组单元1358包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、和通用寄存器。物理寄存器组单元1358被引退单元1354覆盖,以示出可以此实现寄存器重命名和无序执行的多种方式(例如,使用重排序缓冲器和引退寄存器组;使用未来文件(future file)、历史缓冲器、引退寄存器组;使用寄存器映射和寄存器池等等)。引退单元1354和物理寄存器组单元1358耦合至执行群集1360。执行群集1360包括一个或多个执行单元的集合1362以及一个或多个存储器访问单元的集合1364。执行单元1362可执行各种操作(例如,移位、加法、减法、乘法)并可对多种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集的多个执行单元,但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。调度器单元1356、物理寄存器组单元1358和执行群集1360被示为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线和/或各自具有其自身的调度器单元、物理寄存器组单元和/或执行群集的存储器访问流水线——以及在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行群集具有存储器访问单元1364的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以为无序发布/执行的,并且其余流水线可以是有序的。
存储器访问单元的集合1364耦合到存储器单元1370,该存储器单元包括耦合到数据高速缓存单元1374的数据TLB单元1372,其中数据高速缓存单元耦合到第二级(L2)高速缓存单元1376。在一个示例性实施例中,存储器访问单元1364可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合至存储器单元1370中的数据TLB单元1372。指令高速缓存单元1334还耦合到存储器单元1370中的第二级(L2)高速缓存单元1376。L2高速缓存单元1376耦合至一个或多个其他层级的高速缓存,并最终耦合至主存储器。
作为示例,示例性的寄存器重命名无序发布/执行核架构可以如下所述地实现流水线1300:1)指令取出单元1338执行取出和长度解码级1302和1304;2)解码单元1340执行解码级1306;3)重命名/分配器单元1352执行分配级1308和重命名级1310;4)调度器单元1356执行调度级1312;5)物理寄存器组单元1358和存储器单元1370执行寄存器读取/存储器读取级1314;执行群集1360执行执行级1316;6)存储器单元1370和物理寄存器组单元1358执行写回/存储器写入级1318;7)各单元可牵涉到异常处理级1322;以及8)引退单元1354和物理寄存器组单元1358执行提交级1324。
核1390可支持一个或多个指令集(例如,x86指令集(具有与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼州桑尼维尔市的ARM控股的ARM指令集(具有诸如NEON等可选附加扩展)),其中包括本文中描述的各指令。在一个实施例中,核1390包括用于支持紧缩数据指令集扩展(例如SSE、AVX1、AVX2等等)的逻辑,由此允许许多多媒体应用所使用的操作利用紧缩数据来执行。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,此各种方式包括时分多线程化、同步多线程化(其中单个物理核为物理核正在同步多线程化的各线程中的每一个线程提供逻辑核)或其组合(例如,时分取出和解码以及此后诸如用超线程化技术来同步多线程化)。
尽管在无序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所示出的处理器的实施例还包括分开的指令和数据高速缓存单元1334/1374以及共享的L2高速缓存单元1376,但替代实施例可具有用于指令和数据两者的单个内部高速缓存,例如,第一级(L1)内部高速缓存或多个层级的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
具体的示例性有序核架构
图14A-B示出了更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。取决于应用,这些逻辑块通过高带宽的互连网络(例如,环形网络)与一些固定功能逻辑、存储器I/O接口和其他必要的I/O逻辑通信。
图14A是根据本发明的多个实施例的单个处理器核以及它与管芯上互连网络(例如,环形网络1402)的连接及其第二级(L2)高速缓存的本地子集1404的框图。在一个实施例中,指令解码器1400支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1406允许对进入标量和向量单元中的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元1408和向量单元1410使用分开的寄存器集合(分别为标量寄存器1412和向量寄存器1414),并且在这些寄存器之间转移的数据被写入到存储器并随后从第一级(L1)高速缓存1406读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集1404是全局L2高速缓存的部分,该全局L2高速缓存被划分成多个分开的本地子集,每个处理器核对应一个本地子集。每个处理器核具有去往其自身的L2高速缓存的本地子集1404的直接访问路径。将由处理器核读取的数据存储在其L2高速缓存子集1404中,并且可以与并行于其他处理器核访问它们自身的本地L2高速缓存子集来迅速地访问它。将由处理器核写入的数据存储在其自身的L2高速缓存子集1404中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理能够在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图14B是根据本发明的多个实施例的图14A中的处理器核的部分的展开图。图14B包括L1高速缓存1406的L1数据高速缓存1406A部分,以及关于向量单元1410和向量寄存器1414的更多细节。具体地说,向量单元1410是16宽向量处理单元(VPU)(见16宽ALU 1428),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1420支持对寄存器输入的混合,通过数值转换单元1422A-B支持数值转换,并通过复制单元1424支持对存储器输入的复制。写掩码寄存器1426允许断言所得的向量写入。
具有集成存储器控制器和图形器件的处理器
图15是根据本发明的多个实施例可能具有多于一个的核、可能具有集成存储器控制器以及可能具有集成图形器件的处理器1500的框图。图15中的实线框示出具有单个核1502A、系统代理1510、一个或多个总线控制器单元的集合1516的处理器1500,而虚线框的可选附加示出具有多个核1502A-N、系统代理单元1510中的一个或多个集成存储器控制器单元的集合1514以及专用逻辑1508的替代处理器1500。
因此,处理器1500的不同实现可包括:1)CPU,其中专用逻辑1508是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核1502A-N是一个或多个通用核(例如,通用有序核、通用无序核、这两者的组合);2)协处理器,其中核1502A-N是旨在主要用于图形和/或科学(吞吐量)的多个专用核;以及3)协处理器,其中核1502A-N是大量通用有序核。因此,处理器1500可以是通用处理器、协处理器或专用处理器,例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器1500可以是一个或多个基板的部分,并且/或者可使用多种工艺技术(例如,BiCMOS、CMOS或NMOS)中的任意技术被实现在一个或多个基板上。
存储器层次结构包括核内的一个或多个层级的高速缓存、一个或多个共享高速缓存单元的集合1506以及耦合至集成存储器控制器单元集合1514的外部存储器(未示出)。共享高速缓存单元的集合1506可包括一个或多个中级高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或它们的组合。尽管在一个实施例中,基于环的互连单元(例如,环1512)将集成图形逻辑1508、共享高速缓存单元的集合1506以及系统代理单元1510/集成存储器控制器单元1514互连,但替代实施例可使用任何数量的公知技术来互联此类单元。在一个实施例中,可维持一个或多个高速缓存单元1504A~1504N和核1502A-N之间的一致性(coherency)。
在一些实施例中,一个或多个核1502A-N能够进行多线程操作。系统代理1510包括协调和操作核1502A-N的那些组件。系统代理单元1510可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括调节核1502A-N以及集成图形逻辑1508的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
核1502A-N在架构指令集方面可以是同构的或异构的;也就是说,这些核1502A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图16-19是示例性计算机架构的框图。本领域已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般而言,能够涵盖本文中所公开的处理器和/或其他执行逻辑的各种系统和电子设备一般都是合适的。
现在参考图16,所示出的是根据本发明一个实施例的系统1600的框图。系统1600可包括一个或多个处理器1610、1615,这些处理器耦合到控制器中枢1620。在一个实施例中,控制器中枢1620包括图形存储器控制器中枢(GMCH)1690和输入/输出中枢(IOH)1650(其可以在分开的芯片上);GMCH1690包括存储器和图形控制器,存储器1640和协处理器1645耦合到该存储器和图形控制器;IOH 1650将输入/输出(I/O)设备1660耦合到GMCH1690。或者,存储器和图形控制器中的一个或两者可以被集成在处理器内(如本文中所描述的),存储器1640和协处理器1645直接耦合到处理器1610以及控制器中枢1620,控制器中枢1620与IOH 1650处于单个芯片中。
附加的处理器1615的可选性质在图16中通过虚线来表示。每一处理器1610、1615可包括本文中描述的处理核中的一个或多个,并且可以是处理器1500的某一版本。
存储器1640可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢1620经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接1695与处理器1610、1615进行通信。
在一个实施例中,协处理器1645是专用处理器,例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中,控制器中枢1620可以包括集成图形加速器。
在物理资源(例如,处理器1610、1615)之间可以存在包括架构、微架构、热、和功耗特性等的一系列品质度量方面的各种差异。
在一个实施例中,处理器1610执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器1610将这些协处理器指令识别为应当由附连的协处理器1645执行的类型。因此,处理器1610在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1645。协处理器1645接受并执行所接收的协处理器指令。
现在参考图17,所示为根据本发明的实施例的更具体的第一示例性系统1700的框图。如图17所示,多处理器系统1700是点对点互连系统,且包括经由点对点互连1750耦合的第一处理器1770和第二处理器1780。处理器1770和1780中的每一个都可以是处理器1500的某一版本。在本发明的一个实施例中,处理器1770和1780分别是处理器1610和1615,而协处理器1738是协处理器1645。在另一实施例中,处理器1770和1780分别是处理器1610和协处理器1645。
处理器1770和1780示出为分别包括集成存储器控制器(IMC)单元1772和1782。处理器1770还包括作为其总线控制器单元的部分的点对点(P-P)接口1776和1778;类似地,第二处理器1780包括P-P接口1786和1788。处理器1770、1780可以经由使用点对点(P-P)接口电路1778、1788的P-P接口1750来交换信息。如图17所示,IMC 1772和1782将处理器耦合到相应的存储器,即存储器1732和存储器1734,它们可以是本地附连到各自的处理器的主存储器的多个部分。
处理器1770、1780可各自经由使用点对点接口电路1776、1794、1786、1798的各个P-P接口1752、1754与芯片组1790交换信息。芯片组1790可以可选地经由高性能接口1739与协处理器1738交换信息。在一个实施例中,协处理器1738是专用处理器,例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等。
共享高速缓存(未示出)可被包括在任一处理器中,或在两个处理器的外部但经由P-P互连与这些处理器连接,从而如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在该共享的高速缓存中。
芯片组1790可以经由接口1796耦合至第一总线1716。在一个实施例中,第一总线1716可以是外围组件互连(PCI)总线或诸如PCI高速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图17所示,各种I/O设备1714可连同总线桥1718一起耦合到第一总线1716,总线桥1718将第一总线1716耦合到第二总线1720。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器之类的一个或多个附加处理器1715耦合到第一总线1716。在一个实施例中,第二总线1720可以是低引脚计数(LPC)总线。各种设备可以被耦合至第二总线1720,在一个实施例中,这些设备包括例如,键盘/鼠标1722、通信设备1727以及诸如可包括指令/代码和数据1730的盘驱动器或其他大容量存储设备的存储单元1728。此外,音频I/O 1724可以被耦合至第二总线1720。注意,其他架构是可能的。例如,代替图17的点对点架构,系统可以实现多分支总线或其他此类架构。
现在参考图18,所示为根据本发明的实施例的更具体的第二示例性系统1800的框图。图17和18中的相同部件用相同附图标记表示,并已从图18中省去了图17中的某些方面,以避免使图18的其他方面变得模糊。
图18示出处理器1770、1780可分别包括集成存储器和I/O控制逻辑(“CL”)1872和1882。因此,CL 1872、1882包括集成存储器控制器单元并包括I/O控制逻辑。图18示出不仅存储器1732、1734耦合至CL 1872、1882,而且I/O设备1814也耦合至CL 1872、1882。传统I/O设备1815被耦合至芯片组1790。
现在参照图19,所示出的是根据本发明实施例的SoC 1900的框图。图15中的相似的部件具有同样的附图标记。另外,虚线框是更先进的SoC上的可选特征。在图19中,互连单元1902被耦合至:应用处理器1910,其包括一个或多个核的集合1502A-N以及共享高速缓存单元1506;系统代理单元1510;总线控制器单元1516;集成存储器控制器单元1514;一个或多个协处理器的集合1920,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元1930;直接存储器存取(DMA)单元1932;以及用于耦合至一个或多个外部显示器的显示单元1940。在一个实施例中,协处理器1920包括专用处理器,例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等。
本文公开的机制的多个实施例可实现在硬件、软件、固件或此类实现方法的组合中。本发明的多个实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(例如,图17中示出的代码1730)应用于输入指令,以执行本文描述的多个功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任何情形下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在表示处理器中的各种逻辑的机器可读介质上的表示性指令来实现,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。可将被称为“IP核”的此类表示存储在有形的机器可读介质上,并将其提供给各种客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态的有形安排,其包括存储介质,诸如,硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的多个实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。此类实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用来将指令从源指令集转换至目标指令集。例如,指令转换器可以变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式将指令转换成将由核来处理的一个或多个其他指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图20是根据本发明的多个实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中,指令转换器是软件指令转换器,但作为替代,该指令转换器可在软件、固件、硬件或其各种组合中实现。图20示出可使用x86编译器2004来编译利用高级语言2002的程序,以生成可由具有至少一个x86指令集核的处理器2016原生执行的x86二进制代码2006。具有至少一个x86指令集核的处理器2016表示能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器:(1)英特尔x86指令集核的指令集的本质部分,或(2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器2004表示用于生成x86二进制代码2006(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器2016上执行。类似地,图20示出可以使用替代的指令集编译器2008来编译利用高级语言2002的程序,以生成可以由不具有至少一个x86指令集核的处理器2014(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码2010。指令转换器2012用于将x86二进制代码2006转换成可以由不具有x86指令集核的处理器2014原生执行的代码。该转换后的代码不太可能与替代的指令集二进制代码2010相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作并由来自替代指令集的指令构成。因此,指令转换器2012通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码2006的软件、固件、硬件或其组合。
也可以可选地将针对图3-8中任意一个所描述的组件、特征和细节用于图2中。也可以可选地将针对图4-5中任意一个所描述的组件、特征和细节用于图3中。也可以可选地将针对图7-8中任意一个所描述的组件、特征和细节用于图6中。此外,也可以可选地将针对本文中所描写的装置所述的组件、特征和细节用于和/或应用于本文中所述的多个方法,在多个实施例中,可由和/或可利用此类装置来执行这些方法。可将本文所述的处理器中的任意一个包括在本文所公开的计算机系统或其他系统的任意一个中。在一些实施例中,指令可具有本文所公开的指令格式中的任何一个格式,但是这并非是必需的。
在说明书和权利要求中,可能使用了术语“耦合的”和/或“连接的”及其派生词。这些术语不旨在互为同义词。相反,在多个实施例中,“连接的”用于指示两个或更多元件彼此直接物理和/或电接触。“耦合的”可意味着两个或更多个元件彼此直接物理和/或电接触。然而,“耦合的”也可意味着两个或更多个元件并未彼此直接接触,但是仍然彼此协作或彼此作用。例如,执行单元可通过一个或多个中间组件与寄存器和/或解码单元耦合。在多个附图中,箭头用于示出连接和耦合。
可能已使用了术语“和/或”。如本文中所使用的那样,术语“和/或”意思是一个或其他或两者(例如,A和/或B意思是:A或B,或者A和B两者)。
在以上描述中,为了提供对多个实施例的透彻理解,阐述了具体的细节。然而,在没有这些具体细节中的一些的情况下,可实施其他实施例。本发明的范围不是由以上所提供的具体示例来确定的,而仅由所附权利要求确定。在其他实例中,以框图形式和/或没有细节的形式示出了公知的电路、结构、设备和操作,以避免使对说明书的理解变得模糊。在认为合适的地方,已经在多个附图间重复了附图标记或附图标记的结尾部分,以指示可以可选地具有类似或相同特性的对应或类似的元件,除非指出或以其他方式使之显而易见。
某些操作可由硬件组件执行,或者可具体化在机器可执行或电路可执行指令中,这些操作可用于使得和/或者导致机器、电路或硬件组件(例如,处理器、处理器的部分、电路等)利用执行操作的指令被编程。也可以可选地由硬件和软件的组合来执行这些操作。处理器、机器、电路、或硬件可包括可用于执行和/或处理指令且响应于该指令存储结果的专用或特定电路或者其他逻辑(例如,潜在地与固件和/或软件组合的硬件)。
一些实施例包括制品(例如,计算机程序产品),该制品包括机器可读介质。该介质可包括以机器可读的形式提供(例如,存储)信息的机制。机器可读介质可提供指令或指令序列或者可在该机器可读介质上存储了指令或指令序列,如果和/或当由机器执行该指令或指令序列,该指令或指令序列用于使该机器执行和/或导致该机器执行本文中所公开的一种或多种操作、方法、或技术。该机器可读介质可存储或以其他方式提供本文中所公开的指令的实施例中的一个或多个。
在一些实施例中,该机器可读介质可包括有形的和/或非暂态的机器可读存储介质。例如,有形的和/或非暂态机器可读存储介质可包括:软盘、光存储介质、光盘、光学数据存储设备、CD-ROM、磁盘、磁光盘、只读存储器(ROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、闪存、相变化存储器、相变化数据存储材料、非易失性存储器、非易失性数据存储设备、非暂态存储器、或暂态数据存储设备等。
合适机器的示例包括但不限于,通用处理器、专用处理器、指令处理装置、数字逻辑电路、集成电路等。合适的机器的另一些示例包括,包含处理器、指令处理装置、数字逻辑电路或集成电路的计算设备或其他电子设备。此类计算设备和电子设备的示例包括但不限于,台式计算机、膝上型计算机、笔记本计算机、平板计算机、上网本、智能电话、蜂窝电话、服务器、网络设备(例如,路由器)、移动网络设备(MID)、媒体播放器、智能电视、上网机、机顶盒和视频游戏控制器。
例如,贯穿本说明书对“一个实施例”、“实施例”、“一个或多个实施例”、“一些实施例”的引用指示特定特征可被包括在本发明的实施中,但是不一定需要这样。类似地,在说明书中,为了使本公开顺畅并且辅助对各个发明性方面的理解,有时在单个实施例、附图及其描述中将各种特征归集在一起。然而,不应当将该公开方法解释为反映本发明需要比每项权利要求中所明确记载的更多特征的意图。相反,如所附权利要求反映的那样,发明性方面在于少于所公开的单个实施例的所有特征。因此,将遵循具体实施方式的各项权利要求明确地结合进该具体实施方式,每一项权利独立地作为本发明单独的实施例而存在。
示例实施例
以下示例关于进一步的实施例。这些示例中的细节可用于一个或多个实施例中的任何地方。
示例1是处理器或其他装置,其包括多个紧缩数据寄存器和用于解码无局部性提示的向量存储器访问指令的解码单元。该无局部性提示的向量存储器访问指令指示多个紧缩数据寄存器中具有源紧缩存储器索引的紧缩数据寄存器。该源紧缩存储器索引具有多个存储器索引。该无局部性提示的向量存储器访问指令用于针对将以这些存储器索引进行访问的多个数据元素的无局部性提示提供给处理器。该处理器也包括与解码单元和多个紧缩数据寄存器耦合的执行单元。该执行单元响应于该无局部性提示的向量存储器访问指令,访问基于存储器索引的存储器位置处的数据元素。
示例2包括示例1的处理器,进一步包括高速缓存层次结构,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量加载指令。执行单元响应于该无局部性提示的向量加载指令,从存储器位置加载数据元素。该高速缓存层次结构响应于该无局部性提示的向量加载指令,可选地不对从存储器位置加载数据元素进行高速缓存。
示例3包括示例1-2中任意一项的处理器,进一步包括高速缓存层次结构,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量加载指令。执行单元响应于该无局部性提示的向量加载指令,从存储器位置加载数据元素。该高速缓存层次结构用于响应于该无局部性提示的向量加载指令,在数据元素的高速缓存未命中时,可选地不在该高速缓存层次结构中为从存储器加载的该数据元素分配空间。
示例4包括示例1-3中任意一项的处理器,进一步包括高速缓存层次结构,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量加载指令。执行单元响应于该无局部性提示的向量加载指令,从存储器位置加载数据元素。该高速缓存层次结构响应于该无局部性提示的向量加载指令,在数据元素的高速缓存命中时,可选地从该高速缓存层次结构中输出不多于半个高速缓存行。
示例5包括示例4的处理器,其中,该高速缓存层次结构响应于该无局部性提示的向量加载指令,在数据元素的高速缓存命中时,可选地从该高速缓存层次结构输出不多于单个数据元素。
示例6包括示例1-4中任意一项的处理器,还包括存储器控制器,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量加载指令。该存储器控制器响应于该无局部性提示的向量加载指令,可选地针对从存储器加载的数据元素中的每一个,加载不多于半个高速缓存行的数据量。
示例7包括示例6的处理器,其中,该存储器控制器响应于该无局部性提示的向量加载指令,针对从存储器加载的数据元素中的每一个,加载不多于128位。
示例8包括示例1-7中任意一项的处理器,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量聚集指令。该无局部性提示的聚集指令指示多个紧缩数据寄存器的目的地紧缩数据寄存器。执行单元响应于该无局部性提示的聚集指令,将紧缩数据结果存储该目的地紧缩数据寄存器中。该紧缩数据结果包括从存储器位置聚集的数据元素。
示例9包括示例1的处理器,进一步包括存储器控制器,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量写入指令。执行单元响应于该无局部性提示的向量写入指令,将由指令所指示的源紧缩数据的数据元素写入到存储位置处的数据元素上。该存储器控制器响应于该无局部性提示的向量写入指令,可选地针对被写入到存储器中的源紧缩数据的数据元素中的每一个,加载不多于半个高速缓存行的数据量。
示例10包括示例1和9中任意一项的处理器,进一步包括高速缓存层次结构,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量写入指令。该执行单元响应于该无局部性提示的向量写入指令,将由指令所指示的源紧缩数据的数据元素写入到存储位置处的数据元素上。该高速缓存层次结构用于响应于该无局部性提示的向量写入指令,在较低层级高速缓存中发生数据元素的高速缓存命中时,可选地不将与该高速缓存命中相关联的高速缓存行写入到较高层级的高速缓存中。
示例11包括示例1、9和10中任意一项所述的处理器,其中,该无局部性提示的向量存储器访问指令包括无局部性提示的分散指令,并且其中,该无局部性提示的分散指令指示多个紧缩数据寄存器中具有用于包括多个数据元素的源紧缩数据的第二紧缩数据寄存器。该执行单元响应于该无局部性提示的向量分散指令,可选地将源紧缩数据的多个数据元素写入到存储位置处的数据元素上。
示例12包括示例1-11中任意一项所述的处理器处理器,其中,解码单元解码无局部性提示的向量存储器访问指令,该无局部性提示的向量存储器访问指令可选地具有至少一个位,该至少一个位具有指示无局部性提示的第一值,并且具有用于指示缺乏该无局部性提示的第二值。
示例13包括示例1-11中任意一项所述的处理器,其中,解码单元用于解码无局部性提示的向量存储器访问指令,该无局部性提示的向量存储器访问指令可选地具有多个位,这多个位具有:第一值,用于指示无局部性提示是无时间局部性提示;第二值,用于指示无局部性提示是无空间局部性提示;以及第三值,用于指示无局部性提示是无时间和无空间局部性提示。
示例14包括示例1-13中任意一项所述的处理器,其中,解码单元用于解码无局部性提示的向量存储器访问指令,该无局部性提示的向量存储器访问指令可选地指示源紧缩数据操作掩码。
示例15包括处理器中的方法,其包括接收无局部性提示的向量存储器访问指令。该无局部性提示的向量存储器访问指令指示具有多个存储器索引的源紧缩存储器索引。该无局部性提示的向量存储器访问指令将针对将以这些存储器索引进行访问的多个数据元素的无局部性提示提供给处理器。该方法也包括:响应于该无局部性提示的向量存储器访问指令,访问基于存储器索引的存储器位置处的所述多个数据元素。
示例16包括示例15的方法,其中,接收无局部性提示的向量存储器访问指令包括接收无局部性提示的向量加载指令,并且访问包括从多个存储器位置加载多个数据元素。该方法进一步包括:可选地省略在高速缓存层次结构中对从存储器加载的多个数据元素进行高速缓存。
示例17包括示例15-16中任意一项的方法,其中,接收无局部性提示的向量存储器访问指令包括接收无局部性提示的向量加载指令,并且其中,访问包括从存储器位置加载数据元素。该方法进一步包括:当在高速缓存层次结构中发生数据元素的高速缓存命中时,可选地从该高速缓存层次结构中输出不多于半个高速缓存行。
示例18包括示例15-17中任意一项的方法,其中,接收无局部性提示的向量存储器访问指令包括接收无局部性提示的向量加载指令。访问包括从多个存储器位置加载多个数据元素,其包括:针对从存储器加载的每一个数据元素,可选地加载不多于半个高速缓存行的数据量。
示例19包括示例15的方法,其中,接收无局部性提示的向量存储器访问指令包括接收无局部性提示的向量写入指令。访问包括将由指令所指示的源紧缩数据的数据元素写入到存储器位置处的数据元素上,其包括:针对被写入到存储器中的每一个数据元素,可选地写入不多于半个高速缓存行的数据量。
示例20包括示例15和19中任意一项的方法,其中,接收无局部性提示的向量存储器访问指令包括接收无局部性提示的向量写入指令。访问包括:将由指令所指示的源紧缩数据的数据元素写入到存储器位置处的数据元素上。该方法还包括,当在较低层级高速缓存中发生数据元素的高速缓存命中时,可选地不将与该高速缓存命中相关联的高速缓存行带入较高层级的高速缓存中。
示例21包括系统,其用于处理多条指令,并且包括互连和与该互连耦合的处理器。该处理器用于接收无局部性提示的向量存储器访问指令。该无局部性提示的向量存储器访问指令指示源紧缩存储器索引。该源紧缩存储器索引具有多个存储器索引。该无局部性提示的向量存储器访问指令用于针对将以这些存储器索引进行访问的多个数据元素的无局部性提示提供给处理器。该处理器用于响应于该无局部性提示的向量存储器访问指令,访问基于存储器索引的存储器位置处的数据元素。该系统也包括与该互连耦合的动态随机存取存储器(DRAM)。
示例22包括示例21的系统,其中,无局部性提示的向量存储器访问指令包括无局部性提示的向量聚集指令。该处理器响应于该无局部性提示的聚集指令,可选地响应于该无局部性提示的聚集指令,不在高速缓存层次结构中对从存储器加载的多个数据元素进行高速缓存。
示例23包括制品,其包括非暂态机器可读存储介质。该非暂态机器可读存储介质存储无局部性提示的向量加载指令。该无局部性提示的向量加载指令指示具有带有多个存储器索引的源紧缩存储器索引的紧缩数据寄存器。该指令也指示目的地紧缩数据寄存器。该无局部性提示的向量存储器访问指令用于提供无局性提示。如果由机器执行该无局部性提示的向量加载指令,则该指令用于使该机器执行多个操作,这些操作包括将紧缩数据结果存储在目的地紧缩数据寄存器中。该紧缩数据结果包括从基于多个存储器索引的多个存储器位置聚集的多个数据元素。这些操作也包括:省略在高速缓存层次结构中对从存储器加载的多个数据元素进行高速缓存。
示例24包括示例23的制品,其中,指令可选地用于使机器用于针对从存储器加载的每一个数据元素,加载少于半个高速缓存行的数据量。
示例25包括处理器或其他装置,其用于执行示例15-20中任意一项所述的方法。
示例26包括处理器或其他装置,其包括用于执行示例15-20中任意一项所述的方法的设备。
示例27包括处理器,其包括用于执行示例15-20中任意一项所述的方法的模块、单元、逻辑、电路和装置的任意组合。
示例28包括制品,其包括可选地非暂态机器可读介质,该非暂态机器可读介质可选地存储或以其他方式提供指令,如果和/或当由处理器、计算机系统或其他机器执行该指令时,该指令用于使该机器执行示例15-20中任意一项的方法。
示例29包括计算机系统或其他电子设备,其包括互连、与该互连耦合的示例1-14中任意一项所述的处理器以及与该互连耦合的至少一个组件,该至少一个组件是从下列各项中选出的:动态随机存取存储器(DRAM)、网络接口、图形芯片、无线通信芯片、全球移动通信系统(GSM)天线、相变存储器和视频相机。
示例30包括基本上如本文中所述的处理器或其他装置。
示例31包括用于执行基本上如本文中所述的任何方法的处理器或其他装置。
示例32包括处理器或其他装置,其包括用于执行基本上如本文中所述的任何方法的设备。
示例33包括用于执行基本上如本文中所述的任何无局部性提示的向量存储器访问指令的处理器或其他装置。
示例34包括处理器或其他装置,其包括用于执行基本上如本文中所述的任何无局部性提示的向量存储器访问指令的设备。
Claims (106)
1.一种处理器,包括:
多个向量寄存器,所述多个向量寄存器包括第一向量寄存器,所述第一向量寄存器用于存储将具有多个存储器索引的源向量;
多个掩码寄存器,所述多个掩码寄存器包括第一掩码寄存器,所述第一掩码寄存器用于存储断言操作数,所述断言操作数将具有多个断言元素,每个断言元素对应于处于相同的相对位置的源向量的存储器索引;
解码单元,用于对指令解码,所述指令具有用于指定所述第一向量寄存器的第一字段、用于指定所述第一掩码寄存器的第二字段以及用于指示是否将提供非时间的局部性提示的单个位;以及
执行单元,与所述解码单元、所述多个向量寄存器和所述多个掩码寄存器耦合,所述执行单元响应于对所述指令的解码以及所述单个位指示将提供所述非时间的局部性提示,以:
基于用于与相应的断言元素针对其具有第一值的存储器索引对应的存储器位置的非时间的局部性提示发布聚集操作;以及
基于用于与相应的断言元素针对其具有第二值的存储器索引对应的存储器位置的非时间的局部性提示不发布聚集操作。
2.如权利要求1所述的处理器,其中,所述指令具有用于指示所述非时间的局部性提示的类型的至少一个位。
3.如权利要求1所述的处理器,进一步包括通用寄存器,所述通用寄存器用于存储用来对存储器位置进行寻址的基址。
4.如权利要求1所述的处理器,其中,所述多个掩码寄存器包括八个掩码寄存器。
5.如权利要求1所述的处理器,其中,所述第一向量寄存器包括512位。
6.如权利要求1所述的处理器,进一步包括:
第一级高速缓存;以及
第二级高速缓存。
7.如权利要求1所述的处理器,其中,所述处理器是精简指令集计算RISC处理器。
8.如权利要求1所述的处理器,其中,所述解码单元和所述执行单元被包括在乱序核中,并且其中,所述乱序核包括重排序缓冲器ROB。
9.如权利要求1所述的处理器,其中,所述源向量将具有至少四个64位存储器索引。
10.如权利要求1所述的处理器,其中,所述多个存储器索引具有从32位和64位中选出的尺寸。
11.一种处理器,包括:
多个向量寄存器,所述多个向量寄存器包括第一向量寄存器,所述第一向量寄存器用于存储将具有多个存储器索引的源向量;
多个掩码寄存器,所述多个掩码寄存器包括第一掩码寄存器,所述第一掩码寄存器用于存储断言操作数,所述断言操作数将具有多个断言元素,每个断言元素对应于处于相同的相对位置的源向量的存储器索引;
解码单元,用于对指令解码,所述指令具有用于指定所述第一向量寄存器的第一字段、用于指定所述第一掩码寄存器的第二字段以及用于指示是否将提供非时间的局部性提示的单个位;以及
执行单元,与所述解码单元、所述多个向量寄存器和所述多个掩码寄存器耦合,所述执行单元响应于所述指令的解码而用于:
基于与存储器索引对应的断言元素从与所述存储器索引对应的存储器位置加载数据;以及
基于与存储器索引对应的断言元素和所述单个位中的至少一项为所述存储器位置提供非时间的局部性提示。
12.如权利要求11所述的处理器,其中,所述执行单元响应于所述指令的解码而用于:
从与相应的断言元素针对其具有第一值的存储器索引对应的存储器位置加载数据;
为与相应的断言元素针对其具有所述第一值的存储器索引对应的存储器位置提供非时间的局部性提示;以及
不从与相应的断言元素针对其具有第二值的存储器索引对应的存储器位置加载数据。
13.如权利要求12所述处理器,其中,所述执行单元响应于所述指令的解码而不用于为与相应的断言元素针对其具有所述第二值的存储器索引对应的存储器位置提供非时间的局部性提示。
14.如权利要求11所述的处理器,其中,所述指令具有用于指示所述非时间的局部性提示的类型的至少一个位。
15.如权利要求11所述的处理器,进一步包括通用寄存器,所述通用寄存器用于存储用来对存储器位置进行寻址的基址。
16.如权利要求11所述的处理器,其中,所述多个掩码寄存器包括八个掩码寄存器。
17.如权利要求11所述的处理器,其中,所述第一向量寄存器包括512位。
18.如权利要求11所述的处理器,进一步包括:
第一级高速缓存;以及
第二级高速缓存。
19.如权利要求11所述的处理器,其中,所述处理器是精简指令集计算RISC处理器。
20.如权利要求11所述的处理器,其中,所述解码单元和所述执行单元被包括在乱序核中,并且其中,所述乱序核包括重排序缓冲器ROB。
21.如权利要求11所述的处理器,其中,所述源向量将具有至少四个64位存储器索引。
22.如权利要求11所述的处理器,其中,所述多个存储器索引具有从32位和64位中选出的尺寸。
23.一种用于指令处理的系统,包括:
集成存储器控制器单元;以及
处理器核,耦合到所述集成存储器控制器单元,所述处理器核包括:
多个向量寄存器,所述多个向量寄存器包括第一向量寄存器,所述第一向量寄存器用于存储将具有多个存储器索引的源向量;
多个掩码寄存器,所述多个掩码寄存器包括第一掩码寄存器,所述第一掩码寄存器用于存储断言操作数,所述断言操作数将具有多个断言元素,每个断言元素对应于处于相同的相对位置的源向量的存储器索引;
解码单元,用于对指令解码,所述指令具有用于指定所述第一向量寄存器的第一字段、用于指定所述第一掩码寄存器的第二字段以及用于指示是否将提供非时间的局部性提示的单个位;以及
执行单元,与所述解码单元、所述多个向量寄存器和所述多个掩码寄存器耦合,所述执行单元响应于对所述指令的解码以及所述单个位指示将提供所述非时间的局部性提示,以:
基于用于与相应的断言元素针对其具有第一值的存储器索引对应的存储器位置的非时间的局部性提示发布聚集操作;以及
基于用于与相应的断言元素针对其具有第二值的存储器索引对应的存储器位置的非时间的局部性提示不发布聚集操作。
24.如权利要求23所述的系统,其中,所述指令具有用于指示所述非时间的局部性提示的类型的至少一个位。
25.如权利要求23所述的系统,其中,所述处理器核进一步包括通用寄存器,所述通用寄存器用于存储用来对存储器位置进行寻址的基址。
26.如权利要求23所述的系统,其中,所述多个掩码寄存器包括八个掩码寄存器。
27.如权利要求23所述的系统,其中,所述第一向量寄存器包括512位。
28.如权利要求23所述的系统,进一步包括:
第一级高速缓存;以及
第二级高速缓存。
29.如权利要求23所述的系统,其中,所述处理器核是精简指令集计算RISC处理器。
30.如权利要求23所述的系统,其中,所述处理器核是乱序处理器核,并且其中,所述乱序处理器核包括重排序缓冲器ROB。
31.如权利要求23所述的系统,其中,所述源向量将具有至少四个64位存储器索引。
32.如权利要求23所述的系统,其中,所述多个存储器索引具有从32位和64位中选出的尺寸。
33.如权利要求23所述的系统,进一步包括管芯上互连,所述管芯上互连将所述处理器核耦合到所述集成存储器控制器单元。
34.如权利要求33所述的系统,其中,所述管芯上互连包括环形互连。
35.如权利要求23所述的系统,进一步包括与所述处理器核耦合的多个协处理器。
36.如权利要求23所述的系统,进一步包括与所述处理器核耦合的通用图形处理单元GPGPU。
37.如权利要求23所述的系统,进一步包括与所述处理器核耦合的网络处理器。
38.如权利要求23所述的系统,进一步包括与所述处理器核耦合的通信处理器。
39.如权利要求23所述的系统,进一步包括至少通过互连与所述处理器核耦合的直接存储器访问DMA单元。
40.如权利要求23所述的系统,进一步包括至少通过互连与所述处理器核耦合的音频处理器。
41.如权利要求23所述的系统,进一步包括至少通过互连与所述处理器核耦合的图像处理器。
42.如权利要求23所述的系统,进一步包括与所述处理器核耦合的显示单元,所述显示单元用于耦合到一个或多个显示器。
43.如权利要求23所述的系统,进一步包括与所述处理器核耦合的压缩引擎。
44.如权利要求23所述的系统,进一步包括与所述处理器核耦合的高吞吐量处理器。
45.一种用于指令处理的系统,包括:
集成存储器控制器单元;以及
处理器核,耦合到所述集成存储器控制器单元,所述处理器核包括:
多个向量寄存器,所述多个向量寄存器包括第一向量寄存器,所述第一向量寄存器用于存储将具有多个存储器索引的源向量;
多个掩码寄存器,所述多个掩码寄存器包括第一掩码寄存器,所述第一掩码寄存器用于存储断言操作数,所述断言操作数将具有多个断言元素,每个断言元素对应于处于相同的相对位置的源向量的存储器索引;
解码单元,用于对指令解码,所述指令具有用于指定所述第一向量寄存器的第一字段、用于指定所述第一掩码寄存器的第二字段以及用于指示是否将提供非时间的局部性提示的单个位;以及
执行单元,与所述解码单元、所述多个向量寄存器和所述多个掩码寄存器耦合,所述执行单元响应于所述指令的解码而用于:
基于与存储器索引对应的断言元素从与所述存储器索引对应的存储器位置加载数据;以及
基于与存储器索引对应的断言元素和所述单个位中的至少一项为所述存储器位置提供非时间的局部性提示。
46.如权利要求45所述的系统,其中,所述执行单元响应于所述指令的解码而用于:
从与相应的断言元素针对其具有第一值的存储器索引对应的存储器位置加载数据;
为与相应的断言元素针对其具有所述第一值的存储器索引对应的存储器位置提供非时间的局部性提示;以及
不从与相应的断言元素针对其具有第二值的存储器索引对应的存储器位置加载数据。
47.如权利要求46所述系统,其中,所述执行单元响应于所述指令的解码而不用于为与相应的断言元素针对其具有所述第二值的存储器索引对应的存储器位置提供非时间的局部性提示。
48.如权利要求45所述的系统,其中,所述指令具有用于指示所述非时间的局部性提示的类型的至少一个位。
49.如权利要求45所述的系统,进一步包括通用寄存器,所述通用寄存器用于存储用来对存储器位置进行寻址的基址。
50.如权利要求45所述的系统,其中,所述多个掩码寄存器包括八个掩码寄存器。
51.如权利要求45所述的系统,其中,所述第一向量寄存器包括512位。
52.如权利要求45所述的系统,进一步包括:
第一级高速缓存;以及
第二级高速缓存。
53.如权利要求45所述的系统,其中,所述处理器核是精简指令集计算RISC处理器。
54.如权利要求45所述的系统,其中,所述解码单元和所述执行单元被包括在乱序核中,并且其中,所述乱序核包括重排序缓冲器ROB。
55.如权利要求45所述的系统,其中,所述源向量将具有至少四个64位存储器索引。
56.如权利要求45所述的系统,其中,所述多个存储器索引具有从32位和64位中选出的尺寸。
57.如权利要求45所述的系统,进一步包括管芯上互连,所述管芯上互连将所述处理器核耦合到所述集成存储器控制器单元。
58.如权利要求57所述的系统,其中,所述管芯上互连包括环形互连。
59.如权利要求45所述的系统,进一步包括与所述处理器核耦合的多个协处理器。
60.如权利要求45所述的系统,进一步包括与所述处理器核耦合的通用图形处理单元GPGPU。
61.如权利要求45所述的系统,进一步包括与所述处理器核耦合的网络处理器。
62.如权利要求45所述的系统,进一步包括与所述处理器核耦合的通信处理器。
63.如权利要求45所述的系统,进一步包括至少通过互连与所述处理器核耦合的直接存储器访问DMA单元。
64.如权利要求45所述的系统,进一步包括至少通过互连与所述处理器核耦合的音频处理器。
65.如权利要求45所述的系统,进一步包括至少通过互连与所述处理器核耦合的图像处理器。
66.如权利要求45所述的系统,进一步包括与所述处理器核耦合的显示单元,所述显示单元用于耦合到一个或多个显示器。
67.如权利要求45所述的系统,进一步包括与所述处理器核耦合的压缩引擎。
68.如权利要求45所述的系统,进一步包括与所述处理器核耦合的高吞吐量处理器。
69.一种用于指令处理的系统,包括:
系统存储器;以及
处理器,耦合到所述系统存储器,所述处理器包括:
多个向量寄存器,所述多个向量寄存器包括第一向量寄存器,所述第一向量寄存器用于存储将具有多个存储器索引的源向量;
多个掩码寄存器,所述多个掩码寄存器包括第一掩码寄存器,所述第一掩码寄存器用于存储断言操作数,所述断言操作数将具有多个断言元素,每个断言元素对应于处于相同的相对位置的源向量的存储器索引;
解码单元,用于对指令解码,所述指令具有用于指定所述第一向量寄存器的第一字段、用于指定所述第一掩码寄存器的第二字段以及用于指示是否将提供非时间的局部性提示的单个位;以及
执行单元,与所述解码单元、所述多个向量寄存器和所述多个掩码寄存器耦合,所述执行单元响应于对所述指令的解码以及所述单个位指示将提供所述非时间的局部性提示,以:
基于用于与相应的断言元素针对其具有第一值的存储器索引对应的存储器位置的非时间的局部性提示发布聚集操作;以及
基于用于与相应的断言元素针对其具有第二值的存储器索引对应的存储器位置的非时间的局部性提示不发布聚集操作。
70.如权利要求69所述的系统,其中,所述指令具有用于指示所述非时间的局部性提示的类型的至少一个位。
71.如权利要求69所述的系统,其中,所述处理器进一步包括通用寄存器,所述通用寄存器用于存储用来对存储器位置进行寻址的基址。
72.如权利要求69所述的系统,其中,所述多个掩码寄存器包括八个掩码寄存器。
73.如权利要求69所述的系统,其中,所述第一向量寄存器包括512位。
74.如权利要求69所述的系统,其特征在于,所述处理器进一步包括:
第一级高速缓存;以及
第二级高速缓存。
75.如权利要求69所述的系统,其中,所述处理器是精简指令集计算RISC处理器。
76.如权利要求69所述的系统,其中,所述解码单元和所述执行单元被包括在乱序核中,并且其中,所述乱序核包括重排序缓冲器ROB。
77.如权利要求69所述的系统,其中,所述源向量将具有至少四个64位存储器索引。
78.如权利要求69所述的系统,其中,所述多个存储器索引具有从32位和64位中选出的尺寸。
79.如权利要求69所述的系统,进一步包括耦合到所述处理器的大容量存储设备。
80.如权利要求69所述的系统,进一步包括耦合到所述处理器的盘驱动器。
81.如权利要求69所述的系统,进一步包括耦合到所述处理器的I/O设备。
82.如权利要求69所述的系统,进一步包括耦合到所述处理器的通信设备。
83.如权利要求69所述的系统,进一步包括耦合到所述处理器的第二处理器。
84.如权利要求69所述的系统,进一步包括耦合到所述处理器的外围组件互连PCI快速总线。
85.如权利要求69所述的系统,进一步包括耦合到所述处理器的音频I/O。
86.如权利要求69所述的系统,其中,所述系统存储器包括动态随机存取存储器DRAM。
87.一种用于指令处理的系统,包括:
系统存储器;以及
处理器,耦合到所述系统存储器,所述处理器包括:
多个向量寄存器,所述多个向量寄存器包括第一向量寄存器,所述第一向量寄存器用于存储将具有多个存储器索引的源向量;
多个掩码寄存器,所述多个掩码寄存器包括第一掩码寄存器,所述第一掩码寄存器用于存储断言操作数,所述断言操作数将具有多个断言元素,每个断言元素对应于处于相同的相对位置的源向量的存储器索引;
解码单元,用于对指令解码,所述指令具有用于指定所述第一向量寄存器的第一字段、用于指定所述第一掩码寄存器的第二字段以及用于指示是否将提供非时间的局部性提示的单个位;以及
执行单元,与所述解码单元、所述多个向量寄存器和所述多个掩码寄存器耦合,所述执行单元响应于所述指令的解码而用于:
基于与存储器索引对应的断言元素从与所述存储器索引对应的存储器位置加载数据;以及
基于与存储器索引对应的断言元素和所述单个位中的至少一项为所述存储器位置提供非时间的局部性提示。
88.如权利要求87所述的系统,其中,所述执行单元响应于所述指令的解码而用于:
从与相应的断言元素针对其具有第一值的存储器索引对应的存储器位置加载数据;
为与相应的断言元素针对其具有所述第一值的存储器索引对应的存储器位置提供非时间的局部性提示;以及
不从与相应的断言元素针对其具有第二值的存储器索引对应的存储器位置加载数据。
89.如权利要求88所述系统,其中,所述执行单元响应于所述指令的解码而不用于为与相应的断言元素针对其具有所述第二值的存储器索引对应的存储器位置提供非时间的局部性提示。
90.如权利要求87所述的系统,其中,所述指令具有用于指示所述非时间的局部性提示的类型的至少一个位。
91.如权利要求87所述的系统,进一步包括通用寄存器,所述通用寄存器用于存储用来对存储器位置进行寻址的基址。
92.如权利要求87所述的系统,其中,所述多个掩码寄存器包括八个掩码寄存器。
93.如权利要求87所述的系统,其中,所述第一向量寄存器包括512位。
94.如权利要求87所述的系统,进一步包括:
第一级高速缓存;以及
第二级高速缓存。
95.如权利要求87所述的系统,其中,所述处理器是精简指令集计算RISC处理器。
96.如权利要求87所述的系统,其中,所述解码单元和所述执行单元被包括在乱序核中,并且其中,所述乱序核包括重排序缓冲器ROB。
97.如权利要求87所述的系统,其中,所述源向量将具有至少四个64位存储器索引。
98.如权利要求87所述的系统,其中,所述多个存储器索引具有从32位和64位中选出的尺寸。
99.如权利要求87所述的系统,进一步包括耦合到所述处理器的大容量存储设备。
100.如权利要求87所述的系统,进一步包括耦合到所述处理器的盘驱动器。
101.如权利要求87所述的系统,进一步包括耦合到所述处理器的I/O设备。
102.如权利要求87所述的系统,进一步包括耦合到所述处理器的通信设备。
103.如权利要求87所述的系统,进一步包括耦合到所述处理器的第二处理器。
104.如权利要求87所述的系统,进一步包括耦合到所述处理器的外围组件互连PCI快速总线。
105.如权利要求87所述的系统,进一步包括耦合到所述处理器的音频I/O。
106.如权利要求87所述的系统,其中,所述系统存储器包括动态随机存取存储器DRAM。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/335,006 | 2014-07-18 | ||
US14/335,006 US9600442B2 (en) | 2014-07-18 | 2014-07-18 | No-locality hint vector memory access processors, methods, systems, and instructions |
CN201510341039.4A CN105278917B (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510341039.4A Division CN105278917B (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595348A CN108595348A (zh) | 2018-09-28 |
CN108595348B true CN108595348B (zh) | 2022-08-16 |
Family
ID=55021835
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510341039.4A Active CN105278917B (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备 |
CN202210913541.8A Pending CN115437971A (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、系统和指令 |
CN201810179089.0A Active CN108595348B (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、系统和指令 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510341039.4A Active CN105278917B (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备 |
CN202210913541.8A Pending CN115437971A (zh) | 2014-07-18 | 2015-06-18 | 无局部性提示的向量存储器访问处理器、方法、系统和指令 |
Country Status (4)
Country | Link |
---|---|
US (7) | US9600442B2 (zh) |
CN (3) | CN105278917B (zh) |
DE (1) | DE102015007571B4 (zh) |
TW (1) | TWI567556B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8515052B2 (en) | 2007-12-17 | 2013-08-20 | Wai Wu | Parallel signal processing system and method |
US9600442B2 (en) * | 2014-07-18 | 2017-03-21 | Intel Corporation | No-locality hint vector memory access processors, methods, systems, and instructions |
US10248419B2 (en) * | 2016-03-09 | 2019-04-02 | International Business Machines Corporation | In-memory/register vector radix sort |
US10901940B2 (en) * | 2016-04-02 | 2021-01-26 | Intel Corporation | Processors, methods, systems, and instructions to atomically store to memory data wider than a natively supported data width |
US10379855B2 (en) * | 2016-09-30 | 2019-08-13 | Intel Corporation | Processors, methods, systems, and instructions to load multiple data elements to destination storage locations other than packed data registers |
US10261786B2 (en) * | 2017-03-09 | 2019-04-16 | Google Llc | Vector processing unit |
US10402336B2 (en) | 2017-03-31 | 2019-09-03 | Intel Corporation | System, apparatus and method for overriding of non-locality-based instruction handling |
US10409727B2 (en) | 2017-03-31 | 2019-09-10 | Intel Corporation | System, apparatus and method for selective enabling of locality-based instruction handling |
US10503652B2 (en) * | 2017-04-01 | 2019-12-10 | Intel Corporation | Sector cache for compression |
US10705590B2 (en) * | 2017-11-28 | 2020-07-07 | Google Llc | Power-conserving cache memory usage |
US10572259B2 (en) * | 2018-01-22 | 2020-02-25 | Arm Limited | Hints in a data processing apparatus |
US10831503B2 (en) | 2018-11-06 | 2020-11-10 | International Business Machines Corporation | Saving and restoring machine state between multiple executions of an instruction |
US10831478B2 (en) * | 2018-11-06 | 2020-11-10 | International Business Machines Corporation | Sort and merge instruction for a general-purpose processor |
US10831502B2 (en) | 2018-11-06 | 2020-11-10 | International Business Machines Corporation | Migration of partially completed instructions |
US11237970B2 (en) * | 2018-11-07 | 2022-02-01 | Micron Technology, Inc. | Reduce data traffic between cache and memory via data access of variable sizes |
US11113207B2 (en) * | 2018-12-26 | 2021-09-07 | Samsung Electronics Co., Ltd. | Bypass predictor for an exclusive last-level cache |
US11609858B2 (en) * | 2018-12-26 | 2023-03-21 | Samsung Electronics Co., Ltd. | Bypass predictor for an exclusive last-level cache |
US11615057B2 (en) * | 2019-02-26 | 2023-03-28 | Amir More | Data compression and decompression facilitated by machine learning |
CN111584011B (zh) * | 2020-04-10 | 2023-08-29 | 中国科学院计算技术研究所 | 面向基因比对的细粒度并行负载特征抽取分析方法及系统 |
CN117591184B (zh) * | 2023-12-08 | 2024-05-07 | 超睿科技(长沙)有限公司 | Risc-v向量压缩乱序执行的实现方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130076993A (ko) * | 2011-12-29 | 2013-07-09 | 전자부품연구원 | 블롭 감지 장치 및 그 방법 |
CN103827814A (zh) * | 2011-09-26 | 2014-05-28 | 英特尔公司 | 用于提供利用跨越功能的向量加载操作/存储操作的指令和逻辑 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5966528A (en) | 1990-11-13 | 1999-10-12 | International Business Machines Corporation | SIMD/MIMD array processor with vector processing |
US5708849A (en) | 1994-01-26 | 1998-01-13 | Intel Corporation | Implementing scatter/gather operations in a direct memory access device on a personal computer |
US5829025A (en) | 1996-12-17 | 1998-10-27 | Intel Corporation | Computer system and method of allocating cache memories in a multilevel cache hierarchy utilizing a locality hint within an instruction |
US6275904B1 (en) | 1998-03-31 | 2001-08-14 | Intel Corporation | Cache pollution avoidance instructions |
US7467377B2 (en) | 2002-10-22 | 2008-12-16 | Intel Corporation | Methods and apparatus for compiler managed first cache bypassing |
US7647557B2 (en) | 2005-06-29 | 2010-01-12 | Intel Corporation | Techniques for shuffling video information |
US7627735B2 (en) | 2005-10-21 | 2009-12-01 | Intel Corporation | Implementing vector memory operations |
US8330866B2 (en) | 2006-02-21 | 2012-12-11 | Qualcomm Incorporated | Multi-program viewing in a wireless apparatus |
US8074026B2 (en) | 2006-05-10 | 2011-12-06 | Intel Corporation | Scatter-gather intelligent memory architecture for unstructured streaming data on multiprocessor systems |
US7984273B2 (en) | 2007-12-31 | 2011-07-19 | Intel Corporation | System and method for using a mask register to track progress of gathering elements from memory |
US8447962B2 (en) | 2009-12-22 | 2013-05-21 | Intel Corporation | Gathering and scattering multiple data elements |
US8667221B2 (en) | 2008-04-08 | 2014-03-04 | Intel Corporation | Detection of streaming data in cache |
US7814303B2 (en) * | 2008-10-23 | 2010-10-12 | International Business Machines Corporation | Execution of a sequence of vector instructions preceded by a swizzle sequence instruction specifying data element shuffle orders respectively |
US8627017B2 (en) * | 2008-12-30 | 2014-01-07 | Intel Corporation | Read and write monitoring attributes in transactional memory (TM) systems |
US8230172B2 (en) | 2009-12-03 | 2012-07-24 | Intel Corporation | Gather and scatter operations in multi-level memory hierarchy |
US20110257505A1 (en) * | 2010-04-20 | 2011-10-20 | Suri Jasjit S | Atheromatic?: imaging based symptomatic classification and cardiovascular stroke index estimation |
US9727471B2 (en) | 2010-11-29 | 2017-08-08 | Intel Corporation | Method and apparatus for stream buffer management instructions |
US8688957B2 (en) | 2010-12-21 | 2014-04-01 | Intel Corporation | Mechanism for conflict detection using SIMD |
US9471532B2 (en) * | 2011-02-11 | 2016-10-18 | Microsoft Technology Licensing, Llc | Remote core operations in a multi-core computer |
CN103827813B (zh) * | 2011-09-26 | 2016-09-21 | 英特尔公司 | 用于提供向量分散操作和聚集操作功能的指令和逻辑 |
US9021233B2 (en) * | 2011-09-28 | 2015-04-28 | Arm Limited | Interleaving data accesses issued in response to vector access instructions |
US20130159679A1 (en) * | 2011-12-20 | 2013-06-20 | James E. McCormick, Jr. | Providing Hint Register Storage For A Processor |
CN104011648B (zh) * | 2011-12-23 | 2018-09-11 | 英特尔公司 | 用于执行向量打包压缩和重复的系统、装置以及方法 |
US8850162B2 (en) * | 2012-05-22 | 2014-09-30 | Apple Inc. | Macroscalar vector prefetch with streaming access detection |
US9842046B2 (en) * | 2012-09-28 | 2017-12-12 | Intel Corporation | Processing memory access instructions that have duplicate memory indices |
DE112012007063B4 (de) | 2012-12-26 | 2022-12-15 | Intel Corp. | Zusammenfügen von benachbarten Sammel-/Streuoperationen |
US9244684B2 (en) * | 2013-03-15 | 2016-01-26 | Intel Corporation | Limited range vector memory access instructions, processors, methods, and systems |
US9600442B2 (en) * | 2014-07-18 | 2017-03-21 | Intel Corporation | No-locality hint vector memory access processors, methods, systems, and instructions |
US10409727B2 (en) * | 2017-03-31 | 2019-09-10 | Intel Corporation | System, apparatus and method for selective enabling of locality-based instruction handling |
US11281585B2 (en) * | 2018-08-30 | 2022-03-22 | Micron Technology, Inc. | Forward caching memory systems and methods |
US11500779B1 (en) * | 2019-07-19 | 2022-11-15 | Marvell Asia Pte, Ltd. | Vector prefetching for computing systems |
-
2014
- 2014-07-18 US US14/335,006 patent/US9600442B2/en active Active
-
2015
- 2015-06-11 DE DE102015007571.3A patent/DE102015007571B4/de active Active
- 2015-06-11 TW TW104118928A patent/TWI567556B/zh active
- 2015-06-18 CN CN201510341039.4A patent/CN105278917B/zh active Active
- 2015-06-18 CN CN202210913541.8A patent/CN115437971A/zh active Pending
- 2015-06-18 CN CN201810179089.0A patent/CN108595348B/zh active Active
-
2017
- 2017-02-15 US US15/433,500 patent/US10210091B2/en active Active
-
2018
- 2018-03-30 US US15/941,995 patent/US10467144B2/en active Active
- 2018-03-30 US US15/942,046 patent/US10452555B2/en active Active
-
2019
- 2019-02-15 US US16/277,935 patent/US10929298B2/en active Active
-
2020
- 2020-10-21 US US17/076,590 patent/US11392500B2/en active Active
-
2022
- 2022-07-18 US US17/867,673 patent/US11892952B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103827814A (zh) * | 2011-09-26 | 2014-05-28 | 英特尔公司 | 用于提供利用跨越功能的向量加载操作/存储操作的指令和逻辑 |
KR20130076993A (ko) * | 2011-12-29 | 2013-07-09 | 전자부품연구원 | 블롭 감지 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
TW201617890A (zh) | 2016-05-16 |
US20230052652A1 (en) | 2023-02-16 |
TWI567556B (zh) | 2017-01-21 |
US10929298B2 (en) | 2021-02-23 |
CN105278917B (zh) | 2018-04-10 |
US10452555B2 (en) | 2019-10-22 |
CN115437971A (zh) | 2022-12-06 |
US20160019184A1 (en) | 2016-01-21 |
US10467144B2 (en) | 2019-11-05 |
US9600442B2 (en) | 2017-03-21 |
US20190179762A1 (en) | 2019-06-13 |
US20210141734A1 (en) | 2021-05-13 |
US20170300420A1 (en) | 2017-10-19 |
US20180225217A1 (en) | 2018-08-09 |
CN108595348A (zh) | 2018-09-28 |
CN105278917A (zh) | 2016-01-27 |
US11892952B2 (en) | 2024-02-06 |
DE102015007571B4 (de) | 2024-05-02 |
US20180225218A1 (en) | 2018-08-09 |
US10210091B2 (en) | 2019-02-19 |
US11392500B2 (en) | 2022-07-19 |
DE102015007571A1 (de) | 2016-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595348B (zh) | 无局部性提示的向量存储器访问处理器、方法、系统和指令 | |
KR101748538B1 (ko) | 벡터 인덱싱 메모리 액세스 플러스 산술 및/또는 논리 연산 프로세서들, 방법들, 시스템들 및 명령어들 | |
CN107153524B (zh) | 用于给出相应复数的复共轭的计算设备和计算机可读介质 | |
CN109791487B (zh) | 用于加载多个数据元素的处理器、方法、系统和指令 | |
CN103999037B (zh) | 用于响应于单个指令来执行横向相加或相减的系统、装置和方法 | |
CN107003846B (zh) | 用于向量索引加载和存储的方法和装置 | |
CN107741861B (zh) | 用于混洗浮点或整数值的装置和方法 | |
CN107908427B (zh) | 用于多维数组中的元素偏移量计算的指令 | |
CN107220029B (zh) | 掩码置换指令的装置和方法 | |
CN104081340B (zh) | 用于数据类型的下转换的装置和方法 | |
CN107003845B (zh) | 用于在掩码寄存器和向量寄存器之间可变地扩展的方法和装置 | |
CN107924307B (zh) | 按索引分散至寄存器以及数据元素重布置处理器、方法、系统和指令 | |
CN107003852B (zh) | 用于执行向量位混洗的方法和装置 | |
US20140201499A1 (en) | Systems, apparatuses, and methods for performing conversion of a list of index values into a mask value | |
CN106030514B (zh) | 用于执行采用传播的被屏蔽源元素存储指令的处理器及其方法 | |
WO2013095635A1 (en) | Instruction for merging mask patterns | |
US20140208065A1 (en) | Apparatus and method for mask register expand operation | |
CN110659129A (zh) | 用于数据表示之间的一致、加速的转换的装置和方法 | |
CN107111554B (zh) | 用于在加载数据元素以供执行时考虑空间局部性的装置和方法 | |
JP2018500652A (ja) | マスクをマスク値のベクトルに拡張するための方法および装置 | |
US10891230B1 (en) | Apparatuses, methods, and systems for selective linear address masking based on processor privilege level and control register bits | |
CN107168682B (zh) | 用于确定值是否在范围内的指令的装置和方法 | |
CN112306910A (zh) | 用于拆分式数据转换后备缓冲器的硬件 | |
US10095517B2 (en) | Apparatus and method for retrieving elements from a linked structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |