CN107257955A - 快速向量动态存储器冲突检测 - Google Patents

快速向量动态存储器冲突检测 Download PDF

Info

Publication number
CN107257955A
CN107257955A CN201580063871.0A CN201580063871A CN107257955A CN 107257955 A CN107257955 A CN 107257955A CN 201580063871 A CN201580063871 A CN 201580063871A CN 107257955 A CN107257955 A CN 107257955A
Authority
CN
China
Prior art keywords
vector
instruction
iteration
register
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580063871.0A
Other languages
English (en)
Other versions
CN107257955B (zh
Inventor
王诚
A·哈特诺
S·S·巴格索克希
吴友峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN107257955A publication Critical patent/CN107257955A/zh
Application granted granted Critical
Publication of CN107257955B publication Critical patent/CN107257955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30021Compare instructions, e.g. Greater-Than, Equal-To, MINMAX
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/3834Maintaining memory consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

在一个实施例中,公开了用于在向量化迭代标量操作内执行动态存储器冲突检测的向量冲突检测指令。所述指令可以由向量处理器执行以生成对无冲突迭代组进行标识的分区向量。可以使用所述分区向量来生成用于后续向量操作的写掩码。

Description

快速向量动态存储器冲突检测
发明领域
本公开涉及处理逻辑、微处理器和相关联的指令集架构领域,所述指令集架构当由处理器或其他处理逻辑执行时执行逻辑操作、数学操作或其他功能操作。
相关技术说明
许多应用具有大量的数据级并行性,并且应当能够受益于单指令多数据(SIMD)支持。在SIMD执行中,单条指令同时在多个数据元素上进行操作。这通常通过扩展诸如寄存器和算术逻辑单元(ALU)等各种资源的宽度来实现,允许它们分别保持或操作多个数据元素。然而,大多数这样的应用最初被设计为标量进程,即被配置为用于一次处理一个指令和一个数据元素的单指令单数据(SISD)。将标量进程转换为SIMD进程(即,“向量化”)可以提供操作改进,包括缩短的处理时间和增强的资源利用率。然而,重要的是确保由于数据内的冲突和依赖性而在必要时保持标量程序次序。
附图说明
实施例以举例的方式被展示并且不限于附图中的图,在附图中:
图1A是框图,展示了根据实施例的示例性有序获取、解码、引退流水线和示例性寄存器重命名、乱序发布/执行流水线两者;
图1B是框图,展示了根据实施例的有序获取、解码、引退核的示例性实施例以有待包含在处理器中的示例性寄存器重命名、乱序发布/执行架构核的示例性实施例两者;
图2A和图2B是更特定的示例性有序核架构的框图;
图3是具有集成存储器控制器和专用逻辑的单核处理器和多核处理器的框图;
图4展示了根据实施例的系统的框图;
图5展示了根据实施例的第二系统的框图;
图6展示了根据实施例的第三系统的框图;
图7展示了根据实施例的片上系统(SoC)的框图;
图8展示了对照根据实施例的用于将源指令集中的二进制指令转换为目标指令集中的二进制指令的软件指令转换器的使用的框图;
图9是框图,示出了根据实施例的示例性向量之间的运行时数据冲突;
图10是根据实施例的用于计算停止位向量的逻辑的框图;
图11是示例性冲突向量的矩阵表示;
图12是有向非循环图,展示了根据实施例的分区向量的计算;
图13是根据实施例;
图14是根据实施例;
图15是根据实施例;
图16A和图16B是框图,展示了根据实施例的通用向量友好指令格式及其指令模板;
图17A至图17D是框图,展示了根据本发明的示例性实施例的专用向量友好指令格式;并且
图18是根据实施例的寄存器架构的框图。
具体实施方式
以下描述了处理器核架构,接着是对示例性处理器和计算机架构以及用于使用向量处理操作来动态地检测存储器冲突的指令的指令格式的描述。阐述了许多具体的细节以便提供对本发明的以下描述的实施例的彻底理解。然而,对于本领域技术人员而言,可以在不具有这些具体细节中的一些细节的情况下实践本实施例将是明显的。在其他情况下,以框图的形式示出公知的结构和设备,以避免模糊本发明实施例的基本原理。
处理器核能够以不同的方式实现,用于不同的目的以及在不同的处理器中。例如,这样的核的实施方式可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实施方式可以包括:1)CPU,所述CPU包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,所述协处理器包括旨在主要用于图形和/或科学的一个或多个专用核(例如,许多集成核处理器)。这样的不同处理器导致不同的计算机系统架构,所述计算机系统架构可以包括:1)位于与CPU分开的芯片上的协处理器;2)位于与CPU相同的封装中的分开管芯上的协处理器;3)位于与CPU相同的裸片上的协处理器(在这种情况下,这样的协处理器有时被称为专用逻辑,例如集成图形和/或科学(吞吐量)逻辑或专用核);以及4)芯片上的系统,所述系统可以包括位于相同裸片上的所描述的CPU(有时称为(多个)应用核或(多个)应用处理器)、上述协处理器、以及附加功能。
示例性核架构
有序和乱序核框图
图1A是框图,展示了根据实施例的示例性有序流水线和示例性寄存器重命名、乱序发布/执行流水线两者。图1B是框图,展示了根据实施例的有序架构核的示例性实施例以有待包含在处理器中的示例性寄存器重命名、乱序发布/执行架构核的示例性实施例两者。图1A和图1B中的实线框展示了有序流水线和有序核,而虚线框的可选添加展示了寄存器重命名乱序发布/执行流水线和核。假定有序方面是乱序方面的子集,将描述乱序方面。
在图1A中,处理器流水线100包括获取阶段102、长度解码阶段104、解码阶段106、分配阶段108、重命名阶段110、调度(也称为分派或发布)阶段112、寄存器读取/存储器读取阶段114、执行阶段116、回写/存储器写阶段118、异常处理阶段122以及提交阶段124。
图1B示出了处理器核190,所述处理器核包括耦合到执行引擎单元150的前端单元130,并且所述执行引擎单元和前端单元都耦合到存储器单元170。核190可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核心、超长指令字(VLIW)核、或混合或替代核类型。作为又一选项,核190可以是专用核,例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。
前端单元130包括耦合到指令高速缓存单元134的分支预测单元132,所述指令高速缓存单元被耦合到指令翻译后备缓冲器(TLB)136,所述指令转换后备缓冲器被耦合到指令获取单元138,所述指令获取单元被耦合到解码单元140。解码单元140(或解码器)可以对指令进行解码并且生成从原始指令解码出的、或以其他方式反映原始指令或从原始指令衍生出的作为输出的一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。解码单元140可以使用各种不同的机制来实现。合适机制的示例包括但不限于:查找表、硬件实施方式、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核190包括微代码ROM或存储用于某些宏指令的微码的其他介质(例如,在解码单元140中或者在前端单元130内)。解码单元140被耦合到执行引擎单元150中的重命名/分配器单元152。
执行引擎单元150包括耦合到引退单元154的重命名/分配器单元152和一组一个或多个调度器单元156。(多个)调度器单元156表示任何数量的不同调度器,包括保留站、中央指令窗口等。(多个)调度器单元156被耦合到物理寄存器堆单元158。(多个)物理寄存器堆单元158各自表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一个或多个不同的数据类型,例如标量整数、标量浮点、压缩整数、压缩浮点、向量整数、向量浮点状态(例如,作为有待执行的下一指令的地址的指令指针)等。在一个实施例中,物理寄存器堆单元158包括向量寄存器单元、写掩码寄存器单元、以及标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、以及通用寄存器。物理寄存器堆单元158被引退单元154重叠,所述引退单元用于展示可以实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来堆,(多个)历史缓冲区,以及(多个)引退寄存器堆;使用寄存器映射和寄存器池等)。引退单元154和(多个)物理寄存器堆单元158被耦合到(多个)执行群集160。(多个)执行群集160包括一组一个或多个执行单元162和一组一个或多个存储器访问单元164。执行单元162可以执行各种操作(例如,移位、加法、减法、乘法)以及对各种类型的数据(例如,标量浮点、压缩整数、压缩浮点、向量整数、向量浮点)执行。虽然一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但其他实施例可以仅包括执行所有功能的一个执行单元或多个执行单元。所述(多个)调度器单元156、(多个)物理寄存器堆单元158、以及(多个)执行集群160被示出为可能是复数的,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/压缩整数/压缩浮点/向量整数/向量浮点流水线、和/或存储器访问流水线,所述流水线各自具有其本身的调度器单元、(多个)物理寄存器堆单元、和/或执行集群,并且在分开的存储器访问流水线的情况下,实现了其中只有该流水线的执行集群具有(多个)存储器访问单元164的某些实施例)。还应当理解的是,在使用分开的流水线的情况下,这些流水线中的一者或多者可以是乱序发布/执行流水线,并且其余的是有序流水线。
所述一组存储器访问单元164被耦合到存储器单元170,所述存储器单元包括耦合到数据高速缓存单元174的数据TLB单元172,所述数据高速缓存单元被耦合到二级(L2)高速缓存单元176。在一个示例性实施例中,存储器访问单元164可以包括各自被耦合到存储器单元170中的数据TLB单元172的加载单元、存储地址单元、以及存储数据单元。指令高速缓存单元134被进一步耦合到存储器单元170中的二级(L2)高速缓存单元176。L2高速缓存单元176被耦合到一个或多个其他级的高速缓存并且最终被耦合到主存储器。
作为示例,示例性寄存器重命名乱序发布/执行核架构可以如下实现流水线100:1)指令获取单元138执行获取阶段102和长度解码阶段104;2)解码单元140执行解码阶段106;3)重命名/分配器单元152执行分配阶段108和重命名阶段110;4)(多个)调度器单元156执行调度阶段112;5)(多个)物理寄存器堆单元158和存储器单元170执行寄存器读/写阶段114;执行集群160执行执行阶段116;6)存储器单元170和(多个)物理寄存器堆单元158执行回写/存储器写阶段118;7)各种单元可以涉及异常处理阶段122;以及8)引退单元154和(多个)物理寄存器堆单元158执行提交阶段124。
核190可以支持一条或多条指令集(例如,x86指令集(具有已经添加了较新版本的一些扩展);加利福尼亚州桑尼维尔的MIPS技术公司的MIPS指令集;英格兰剑桥的ARM控股公司的指令集(具有任选的附加扩展,例如NEON)),包括本文所描述的指令。在一个实施例中,核190包括支持打包数据指令集扩展(例如,AVX1、AVX2等)的逻辑,从而允许使用打包数据来执行许多多媒体应用所使用的操作。
应当理解,核可以支持多线程化(执行两个或更多个并行的操作或线程集),并且可以以各种方式来完成所述多线程化,此各种方式包括时分多线程化、同步多线程化(其中,单个物理核为物理核正同步多线程化的各线程中的每一个线程提供逻辑核)、或其组合(例如,时分获取和解码以及此后诸如超线程化技术中的同步多线程化)。
虽然在乱序执行的上下文中描述了寄存器重命名,但应当理解的是,可以在有序架构中使用寄存器重命名。虽然处理器的所示实施例还包括分开的指令和数据缓存单元134/174和共享的L2缓存单元176,但替代实施例可以具有用于指令和数据两者的单个内部缓存,例如一级(L1)内部缓存、或多级内部缓存。在一些实施例中,所述系统可以包括在所述核和/或处理器外部的内部高速缓存和外部高速缓存的组合。可替代地,所有高速缓存都可以在所述核和/或处理器的外部。
特定示例性有序核架构
图2A和图2B是更特定的示例性有序核架构的框图,该核是芯片中的若干个逻辑块(包括相同类型和/或不同类型的其他核)之一。取决于应用,所述逻辑块通过具有某些固定功能逻辑、存储器I/O接口和其他必需I/O逻辑的高带宽互连网络(例如,环形网络)进行通信。
图2A是根据实施例的单个处理器核、和其与裸片上互连网络202的连接以及其二级(L2)高速缓存204的局部子集的框图。在一个实施例中,指令解码器200支持具有紧缩数据指令集扩展的x86指令集。L1缓存206允许对缓存存储器的低时延访问进入标量单元和向量单元。虽然在一个实施例中(为了简化设计),标量单元208和向量单元210使用分开的寄存器组(分别为标量寄存器212和向量寄存器214),并且在它们之间传送的数据被写入存储器并且然后从一级(L1)高速缓存206中回读,但替代实施例可以使用不同的途径(例如,使用单个寄存器组或者包括允许数据在两个寄存器堆之间传送而未被书写和回读的通信路径)。
L2高速缓存204的局部子集是全局L2高速缓存的一部分,所述全局L2高速缓存被划分为多个分开的局部子集,每个处理器核一个。每个处理器核具有到其本身的L2高速缓存204的局部子集的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集204中并且可以被快速访问,与其他处理器核并行地访问其局部L2的高速缓存子集。由处理器核写的数据被存储在其本身的L2高速缓存子组204中,并且如果需要,则从其他子集划掉。所述环形网络确保共享数据的相干性。所述环形网络是双向的,允许诸如处理器核、L2高速缓存和其他逻辑块的媒介在芯片内彼此通信。每个环形数据路径在每个方向为1012位宽。
图2B是根据实施例的图2A中的处理器核的一部分的放大视图。图2B包括L1缓存204的L1数据缓存206A部分、以及关于向量单元210和向量寄存器214的更多细节。具体地,向量单元210是16位宽向量处理单元(VPU)(参见16位宽ALU 228),所述向量处理单元执行整数、单精度浮点和双精度浮点指令中的一者或多者。VPU支持用混合单元220对寄存器输入进行混合、用转换单元222A-B进行数字转换、以及用复制单元224对存储器输入进行复制。写掩码寄存器226允许预测结果向量写。
具有集成存储器控制器和专用逻辑的处理器
图3是根据实施例的处理器300的框图,所述处理器可以具有多于一个核的、可以具有集成存储器控制器的、以及可以具有集成图形。图3中的实线框展示了具有单个核302A、系统代理310、一组一个或多个总线控制器单元316的处理器300,而虚线框的可选添加展示了具有多个核302A-N、系统代理310中的一组一个或多个集成存储器控制器单元314以及专用逻辑308的替代处理器300。
因此,处理器300的不同实施方式可以包括:1)CPU,其中专用逻辑308是集成图形和/或科学(吞吐量)逻辑(其可以包括一个或多个核),并且核302A-N是一个或多个通用核(例如,通用有序核、通用乱序核、两者的组合);2)协处理器,其中核302A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核302A-N是大量通用有序核。因此,处理器300可以是通用处理器、协处理器或专用处理器,例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量集成众核(MIC)协处理器(包括30个或更多个核)、嵌入式处理器等。所述处理器可以在一个或多个芯片上实现。处理器300可以是一个或多个衬底的一部分和/或可以使用诸如例如BiCMOS、CMOS或NMOS的多种加工技术中的任何一种技术在一个或多个衬底上被实现。
存储器层级包括所述核内的一个或多个级别的高速缓存,一组或一个或多个共享高速缓存单元306、以及外部存储器(未示出),所述外部存储器被耦合到所述一组集成存储器控制器单元314。所述一组共享高速缓存单元306可以包括一个或多个中级高速缓存,如二级(L2)、三级(L3)、四级(L4)、或其他级别的高速缓存、终极高速缓存(LLC)、和/或其组合。虽然在一个实施例中,基于环形的互连单元312将集成图形逻辑308、所述一组共享高速缓存单元306、以及系统代理单元310/(多个)集成存储器控制器单元314互连,但替代实施例可以使用任何数量的用于互连这样的单元的已知技术。在一个实施例中,维持一个或多个高速缓存单元306与核302A-N之间的相干性。
在一些实施例中,所述核302A-N中的一个或多个核能够进行多线程。系统代理310包括协调和操作核302A-N的那些组件。系统媒介单元310可以包括例如功率控制单元(PCU)和显示单元。PCU可以是或包括用于调节核302A-N和集成图形逻辑308的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
就架构指令集而言,核302A-N可以是同质的或异构的;也就是说,核302A-N中的两个或更多个核能够执行相同的指令集,而其他的核能够仅执行所述指令集的子集或不同指令集。
示例性计算机架构
图4-7是示例性计算机架构的框图。本领域已知的用于膝上型计算机、台式机,手持PC、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备、以及各种其他电子设备的其他系统设计和配置也是合适的。一般,能够结合本文所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备通常是合适的。
现在参考图4,示出的是根据本发明的一个实施例的系统400的框图。系统400可以包括耦合到控制器中枢420的一个或多个处理器410、415。在一个实施例中,控制器中枢420包括图形存储器控制器中枢(GMCH)490和输入/输出中枢(IOH)450(其可以在分开的芯片上);GMCH 490包括存储器和图形控制器,存储器440和协处理器445被耦合到所述图形控制器;IOH 450将输入/输出(I/O)设备460耦合到GMCH 490。可替代地,存储器和图形控制器中的一者或两者被集成在处理器(如本文所述)内,存储器440和协处理器445通过IOH 450直接耦合到单个芯片中的处理器410和控制器中枢420。
图4中用虚线表示附加处理器415的特性。每个处理器410、415可以包括本文描述的一个或多个处理核,并且可以是某一版本的处理器300。
存储器440可以例如是动态随机存取存储器(DRAM)、相变存储器(PCM)或两者的组合。对于至少一个实施例,控制器集线器420经由多点总线(例如前端总线(FSB)、诸如快速路径互连(QPI)的点对点接口或类似连接件495)与(多个)处理器410、415通信。
在一个实施例中,协处理器445是专用处理器,例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中,控制器中枢420可以包括集成图形加速器。
就一系列指标量度(包括体系结构、微体系结构、热、功耗特性等)而言,物理资源410、415之间存在多种差异。
在一个实施例中,处理器410执行控制一般类型的数据处理操作的指令。协处理器指令可以被嵌入在所述指令中。处理器410将这些协处理器指令识别为应由附连的协处理器445执行的类型。相应地,处理器410将协处理器总线或其他互连上的这些协处理器指令(或表示协处理器指令的控制信号)发布到协处理器445。(多个)协处理器445接受并执行接收到的协处理器指令。
现在参考图5,示出了根据本发明的实施例的更具体的第一示例性系统500的框图。如图5所示,多处理器系统500是点对点互连系统,且包括经由点对点互连550耦合的第一处理器570和第二处理器580。处理器570和580各自可以是某一版本的处理器300。在本发明的一个实施例中,处理器570和580分别是处理器410和415,而协处理器538是协处理器445。在另一实施例中,处理器570和580分别是处理器410和445。
处理器570和580被示出为分别包括集成存储器控制器(IMC)单元572和582。处理器570还包括作为其总线控制器单元的一部分的点对点(P-P)接口576和578;类似地,第二处理器580包括P-P接口586和588。处理器570、580可以使用P-P接口电路578、588通过点对点(P-P)接口550交换信息。如图5所示,IMC 572和582将处理器联接到对应存储器、即存储器532和存储器534上,所述存储器可以是主存储器的局部附接到对应处理器上的部分。
处理器570、580可以各自使用点对点接口电路576、594、586、598经由单独的P-P接口552、554来与芯片组590交换信息。芯片组590可以可选地经由高性能接口539与协处理器538交换信息。在一个实施例中,协处理器538是专用处理器,例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。
共享高速缓存(未示出)可以包括在任一处理器中或者在两个处理器外部但经由P-P互连与所述处理器相连接,使得如果处理器被置于低功耗模式中,则任一或两个处理器的局部高速缓存信息可以被存储在所述共享高速缓存中。
芯片组590可以经由接口596耦合至第一总线516。在一个实施例中,第一总线516可以是外围部件互连(PCI)总线,或诸如PCI Express总线或另一种第三代I/O互连总线的总线,尽管本发明的范围不限于此。
如图5所示,不同I/O设备514可以连同总线桥接器518耦合到第一总线516,所述总线桥接器可以将第一总线516耦合到第二总线520。在一个实施例中,一个或多个附加处理器515(例如协处理器、高吞吐量MIC处理器、GPGPU、加速器(例如,图形加速器或数字信号处理(DSP)单元)、字段可编程门阵列、或任何其他处理器)被耦合到第一总线516。在一个实施例中,第二总线520可以是低引脚数(LPC)总线。在一个实施例中,各个设备可以耦合至第二总线520,所述设备包括例如键盘和/或鼠标522、多个通信设备527、以及可以包括指令/代码数据530的存储单元528(如磁盘驱动器或者其他大容量存储设备)。进一步地,音频I/O524可以耦合至第二总线520。注意到,其他架构是可能的。例如,替代图5的点对点体系结构,系统可以实现多站式总线或其他这样的架构。
现在参考图6,示出了根据本发明的实施例的更具体的第二示例性系统600的框图。图5和图6中的相同元件具有相同的参考数字,并且已经从图6中省略了图5的某些方面以避免使图6的其他方面模糊。
图6展示了处理器570、580可以分别包括集成存储器和I/O控制逻辑(“CL”)572和582。因此,CL 572、582包括集成存储器控制器单元并且包括I/O控制逻辑。图6展示了不仅存储器532、534被耦合至CL 572、582,而且I/O设备614也被耦合至控制逻辑572、582。传统I/O设备615被耦合至芯片组590。
现在参考图7,示出的是根据本发明的实施例的SoC 700的框图。图3中的相似元件具有相同的附图标记。此外,虚线框是关于更先进的SoC的可选特征。在图7中,(多个)互连单元702被耦合到:应用处理器710,所述应用处理器包括一组一个或多个核202A-N和一个或多个共享高速缓存单元306;系统代理单元310;(多个)总线控制器单元316;(多个)集成存储器控制器单元314;一组或一个或多个协处理器720,所述协处理器可以包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器;静态随机存取存储器(SRAM)单元730;直接存储器访问(DMA)单元732;以及显示单元740,所述显示单元用于耦合到一个或多个外部显示器。在一个实施例中,所述(多个)协处理器720是专用处理器,例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。
本文公开的机制的实施例以硬件、软件、固件或这些实现途径的组合来实现。多个实施例可以被实现为在可编程系统上执行的计算机程序或程序代码,所述可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备、以及至少一个输出设备。
诸如图5所示的代码530的程序代码可以被应用于输入指令以执行本文所述的功能并且生成输出信息。输出信息能够以已知的方式应用于一个或多个输出设备。出于此应用的目的,处理系统包括具有处理器(例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)、或微处理器)的任何系统。
程序代码能够以高级程序或面向对象的编程语言来实现,以与处理系统通信。如果需要,程序代码还能够以汇编或机器语言实现。事实上,本文描述的机制的范围不限于任何特定的编程语言。在任何情况下,所述语言可以是编译或解释语言。
可以由机器可读介质上所存储的表属性指令实现至少一个实施例的一个或多个方面,该指令代表处理器内的各种逻辑,当被机器读取时该指令使该机器制作用于执行在此所描述的技术的逻辑。此类表示(称为“IP核”)可以被存储在有形的机器可读介质上并提供给各顾客或制造设施以加载至实际制作该逻辑或处理器的制作机器中。
这样的机器可读存储介质可以包括但不限于:由机器或设备制造或形成的物品的非瞬态有形安排,包括诸如硬盘的存储介质;任何其他类型的盘,包括软盘、光盘、CD盘只读存储器(CD-ROM)、可擦写CD盘(CD-RW)、和磁光盘;半导体设备,例如只读存储器(ROM);随机存取存储器(RAM),例如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM);可擦可编程只读存储器(EPROM);闪存存储器;电可擦可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或者适合于存储电子指令的任何其他类型的介质。
因此,实施例还包括包含指令或包含设计数据(如硬件描述语言(HDL))的非瞬态有形机器可读介质,所述非瞬态有形机器可读介质限定本文描述的结构、电路、设备、处理器和/或系统特征。这样的实施例也可以被称为程序产品。
仿真(包括二进制翻译、代码变形等)
在一些情况下,可以使用指令转换器将指令从源指令集转换为目标指令集。例如,所述指令转换器可以将指令翻译(例如,使用静态二进制翻译、包括动态编译的动态二进制翻译)、变形、仿真、或以其他方式转换为有待由核处理的一个或多个其他指令。指令转换器能够以软件、硬件、固件或其组合来实现。指令转换器可以位于处理器上、处理器外、或者部分在处理器上并且部分在处理器外。
图8是对照根据实施例的用于将源指令集中的二进制指令转换为目标指令集中的二进制指令的软件指令转换器的使用的框图。在所示实施例中,指令转换器是软件指令转换器,然而可替代地,指令转换器能够以软件、固件、硬件或其各种组合来实现。图8示出了可以使用x86编译器804来编译高级语言802的程序以生成x86二进制代码806,所述x86二进制代码可以由具有至少一个x86指令集核的处理器816本机执行。
具有至少一个x86指令集核的处理器816表示可以通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的处理器基本相同功能的任何处理器:(1)x86指令集核的指令集的实质部分、或(2)目标代码版本的应用或目标是在具有至少一个x86指令集核的处理器上运行的其他软件,以便实现与具有至少一个x86指令集核的处理器基本相同的结果。x86编译器804表示可操作用于生成x86二进制代码806(例如,目标代码)的编译器,所述x86二进制代码可以在具有或不具有附加链接处理的情况下在具有至少一个x86指令集核816的处理器上执行。类似地,图8示出了可以使用替代性指令集编译器808来编译高级语言802的程序以生成替代性指令集二进制代码810,可以由不具有至少一个x86指令集核的处理器814(例如,具有执行加利福尼亚州桑尼维尔的MIPS技术公司的MIPS指令集和/或执行英格兰剑桥的ARM控股公司的ARM指令集的多个核的处理器)本机执行所述替代性指令集二进制代码。
指令转换器812用于将x86二进制代码806转换为可由不具有x86指令集核的处理器814本机执行的代码。此经转换的代码不太可能与替代性指令集二进制代码810相同,因为能够实现这一点的指令转换器很难制作;然而,经转换的代码将完成一般操作,并且由来自所述替代性指令集的指令构成。因此,指令转换器812表示通过仿真、模拟或任何其他进程允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码806的软件、固件、硬件或其组合。
数据依赖性的运行时确定
运行时存储器冲突检测
将标量进程转换为向量进程典型地将较长序列的有序标量操作变换成较短序列的并行向量操作。每个并行操作对应于多个标量操作,其中标量操作的数量可以对应于执行所述操作的系统的向量长度。
可以针对无序单索引、有序单索引和/或有序索引对来检测冲突。可以针对写入后读取(read-after-write)依赖性进一步检测冲突。冲突检测被配置为用于标识迭代序列中无法并行完成的操作(即,迭代)。
如本文所使用的,“索引(index)”对应于包括在数组中的元素的地址。例如,可以尤其通过基址来指定数组。可以由索引指向数组中的元素。元素的地址则可以包括基址和索引(即,偏移)。
当对标量进程进行向量化时,待由所述进程进行操作的数据可以被存储在数组中,并且标量进程可以被配置为用于对数组的元素一次操作一个元素。例如,标量进程可以包括循环,其中每遍次(即,迭代)通过循环时操作一个元素。取决于所述进程,可以对元素进行一次、多次操作或无操作。
程序向量化技术应当在对标量进程进行向量化时注意程序控制和数据依赖性。一些程序包含仅在运行时已知的数据依赖性。下面的表1示出了具有运行时依赖性的示例性程序代码。
表1:示例程序代码
表1示出了包括循环的示例程序代码,所述循环包括阵列A的元素之间的分配。所述循环包含数据依赖性,其中数组A依赖于数组X和数组Y的运行时值。为了对示例程序代码内的循环进行向量化,需要从数组X到数组Y的运行时冲突检测。示例性数组X和Y如下表2所示。
表2:示例向量
上面的表2将向量元素示出为C语言数组。数组从左到右索引为零。示例性向量的每个索引与表1的程序代码中的循环的迭代相关联。在该序列中,在迭代3读取A[1]并且迭代1写入A[1]时存在冲突。换句话说,X[3]=Y[1]=1(注意,迭代数从0开始)。因此,从X[3]到Y[l]至少存在一个冲突。从X[i]到Y[j]的每个运行时冲突意味着从A[X[k]]到A[Y[k]]的阻止传统向量化的运行时依赖性。
图9是框图,示出了示例性向量之间的运行时数据冲突。示出了表2的示例性向量X902和Y 904,其索引为i 901和j 905。如果X[i]=Y[j]并且j<i,则从X[i]到Y[j]确定有冲突。除了冲突X[3]=Y[1]=1,还存在冲突X[3]=Y[2]=1。另外,X[4]=Y[0]=2;X[5]=Y[4]=3;并且X[6]=Y[3]=Y[2]=Y[1]=1。由于冲突,传统的循环向量化技术不能对表1的示例性程序代码的所有迭代进行向量化。然而,可以在[0,2]的范围内对循环迭代进行向量化,然后在范围[3,4]内对循环迭代进行向量化,并且最后在范围[5,7]内对循环迭代进行向量化。一般地,可以将所述循环迭代分区成多个范围,使得在特定循环迭代范围内不存在冲突(例如,对于循环迭代范围[M,N],没有X[i]=Y[j],M<=j<i<=N)。然后可以在由位掩码保护的向量中的每个范围内运行循环迭代,而不违背数据依赖性。
例如,可以首先在由位掩码0b11100000保护的范围[0,2]内运行循环迭代,然后在由位掩码00011000保护的范围[3,4]内运行循环迭代,并且然后在由位掩码0b00000l11保护的范围[5,7]内运行循环迭代。应当注意,在一个实施例中,允许将迭代1和2(例如,Y[1]=Y[2]=1)中的相同的数组元素(例如,A[1])写入向量中是可接受的,因为向量写逻辑被配置为将到相同存储器位置稍微连续写入序列化。
图10是根据实施例的用于计算停止位向量的逻辑的框图。在一个实施例中,为了计算停止位向量,逻辑被配置为可以扫描X[i]的每个元素以判定所述元素是否与Y[j](例如,X[i]=Y[j],j<i)的较早(例如较低索引)的元素冲突,并且将停止位M[i]设置为0或1。输入掩码寄存器k2 1001用作写掩码,以控制当前活动元素是否用于比较。定序器1002依序通过输入掩码寄存器k21001的位位置。如果掩码寄存器k2的当前位位置中的值在1003处确定为0,则将输出寄存器k1 1010中的相应位位置设置为0。
在一个实施例中,如果掩码寄存器k2的当前位位置的值为1,则这确定了用于定序器1004和1005的操作的起始点。比较器1008将v0的每个元素i+1与v1的所有先前元素i、i-1、i-2等进行比较,并且利用OR累加器1009将比较结果进行OR操作在一起。然后相应地更新掩码寄存器k1。
在一个实施例中,不是从X[i]到Y[j]的每个冲突都需要设置停止位M[i]。例如,给定表2中的示例性向量X和Y,从X[3]到Y[1]存在冲突(即,X[3]=Y[1]=1),并且停止位设置在M[3]中。因此,没有必要考虑从X[4]到Y[0]的冲突(其中X[4]=Y[0]=2)以及设置停止位M[4],因为停止位M[3]已经确保迭代0和迭代4将处于不同的循环迭代范围。一般地,如果由于从X[i1]到Y[j1]的冲突而设置了停止位M[i1],则冲突逻辑不需要考虑从X[i2]到Y[j2]的所有冲突(倘若j2<i1<i2)。换句话说,在针对j<i逻辑检查从X[i]到Y[j]的冲突的情况下,针对所有j<最后停止位集逻辑可以忽略Y[j]的冲突。下表3示出了用于计算冲突向量M的示例性算法。
表3:示例停止位算法
给定以上表2的示例性输入向量X和Y,逻辑产生停止位向量M,如下表4所示:
表4:示例停止位向量
在示例性停止位向量中,每个范围在位“1”之前停止(例如,具有“1”的位指示新的循环分区的开始)。因此,表3的向量M指示循环迭代被分区为三个循环迭代范围:[0,2],[3,4]和[5,7]。在一个实施方式中,将多个位处理指令提供给处理器以从M生成对应的位掩码以确定用于位掩码的向量操作的循环迭代范围。例如,为第一向量操作生成位掩码0b11100000,以对循环迭代范围[0,2]进行向量化。将位掩码0b00011000用于第二向量操作,以对循环迭代范围[3,4]进行向量化。生成掩码0b00000l11以对循环迭代范围[5,7]进行向量化。
基于向量的冲突确定
替代实施方式利用处理器逻辑来计算向量Z,其中每个位表示第一向量的每个元素与第二向量的每个其他元素之间是否存在冲突。例如,给定表2的示例性输入向量X和Y,具有如图9所示的冲突,计算Z向量,如表5所示。
表5:示例冲突向量(Z)
表5的示例性冲突向量Z示出了从X[3]到在Z[3]=01100000的位置1和2(位位置是从左到右)处的为“1”的Y[1]和Y[2]的冲突。
图11是示例性冲突向量Z的矩阵表示。表2的示例性X向量被示出为X轴1102。表2的示例性Y向量被示出为Y轴1104。存储器冲突矩阵1101的每个体积示出了表5的示例性冲突向量的向量元素。
虽然处理器向量单元可以有效地计算Z冲突向量,但是Z向量必须在可将其用于将循环分区成多个迭代范围(例如,示例性向量X和Y的[0,2]、[3,4]和[5,7])之前进行后处理。执行后处理以确保有适当和完整的冲突检测器用于基于局部范围的循环向量化。
例如,原始Z冲突向量似乎指示迭代0、1、2和7可以作为向量操作运行,因为从X[0]、X[1]、X[2]和X[7]到任何Y元素不存在冲突,而Z[0]、Z[1]、Z[2]和Z[7]为零。然而,正确的存储器排序要求在迭代7处A[3]的写入(例如,Y[7]=3)是在迭代4处的A[3]的写入(例如,Y[4]=3)之后,因为在一个实施例中,对相同存储器地址的写入要求严格排序。
一种解决方案是针对具有全零的元素顺序地处理Z,以确定第一循环迭代范围[0,2]。对于示例性冲突向量Z,这指示元素0、1和2。在将范围[0,2]内的循环迭代执行为向量操作之后,与Y[0,2]相关的任何未来的冲突都可以被忽略。为了掩蔽向量Z中表示的对应冲突,产生位掩码(例如,0b000111111),其中范围[0,2]内的位为0,并且其他为1。位掩码可以同时应用于Z的所有元素作为向量操作(例如,Z[]=Z[]&00011111),以移除与Y[0,2]相关的所有冲突。所产生的新冲突产生Z’(例如Z-上撇号)向量,如表6所示。
表6:示例性经处理的冲突向量(Z’)
考虑到范围[0,2]已经被处理,所产生的向量应用于范围[3,7]。然而,范围[3,7]中包含全零位的仅有向量元素是元素3和4。这指示对于范围[3,4]中的循环迭代,可以安全地执行向量操作。一旦执行用于范围[3,4]内的循环迭代的向量操作,与Y[3,4]相关的冲突就不再相关。因此,将0b11100111的位掩码应用于Z’的每个元素,产生如表7所示的Z”(例如,Z-双上撇号)向量。
表7:示例性经处理的冲突向量(Z”)
范围[5,7]内Z”的元素全部为零。因此,循环的剩余迭代可以被安全地向量化,并且处理逻辑可以在向量单一向量操作中进行到处理范围[5,7]内的循环迭代。
基于向量的快速冲突确定
在一个实施例中,通过若干个附加指令提供了基于向量的快速冲突确定。冲突确定在单条指令内执行运行时基于向量的存储器冲突检测,而不要求用于解决严格的存储器排序问题的附加后处理。
在一个实施例中,P=VCONFLICTP(X,Y)指令处理两个输入向量以计算分区向量P。给定如表2中的输入向量X和Y,产生作为结果的分区向量P,如下表8所示。
表8:示例分区向量
在表8的示例性分区向量中,“0”指示循环迭代属于循环迭代范围0(即[0,2]),“1”指示循环迭代属于循环迭代范围1(即[3,4]),并且“2”指示循环迭代属于循环迭代范围2(即[5,7])。
因此,分区向量P提供了相同的循环迭代范围的不同表示作为停止位向量M。还可以将视图P[i]可视化为迭代范围(0,i]中的停止位M的计数(应当注意,在一个实施例中,M[0]始终为0)。这表示允许快速位掩码生成,而不需要对停止位向量M的位进行顺序扫描,这在一些实施例中产生了停止位实现的性能改进。
在一个实施例中,使用向量比较操作来从P生成每个循环迭代范围的位掩码。在一个实施例中,向量比较操作基于向量值的分组生成每个迭代分区的分开的位掩码。表9中示出了示例性向量比较和作为结果的位图。
表9:示例向量比较
(21) Ρ[]==0→11100000//用于循环迭代范围0(即[0,2])的位掩码
(22) Ρ[]==1→00011000//用于循环迭代范围1(即[3,4])的位掩码
(23) Ρ[]==2→00000111//用于循环迭代范围2(即[5,7])的位掩码
可以使用示出存储器位置之间的冲突的有向非循环图(DAG)来示出分区向量的计算。图12是根据实施例的用于确定路径向量的示例性DAG。有向非循环图(DAG)1200展示了如由表2中的示例性向量X和Y确定的存储器位置之间的冲突。DAG 1200包括用于每个循环迭代(例如,节点0-7)的节点(例如,1201)以及每对迭代j<i之间的边缘j→i(例如,1202、1203)。每个边缘具有这样的长度,使得如果X[i]与Y[j]冲突,则边缘j→i的长度为1(例如,与边缘1202相同,length(y,i)=1)。否则,边缘j→i的长度为0(例如,与边缘1203相同,length(y,i)=0)。
鉴于图12的DAG 1200,可以做出以下观察:1)具有长度为1的边缘j→i指示由于X[i]与Y[j]之间的冲突而在迭代范围[j,i]内将至少使用1个停止位;2)具有长度p的从节点0到i的路径指示在迭代范围(0,i]中至少使用p个停止位;3)从0到i的最长路径给出在迭代范围(0,i]中使用的停止位的最小计数。最长路径可以被递归地定义,其中P(0)=0,并且P(i)=max_j{P(j)+length(j,i)}。表10中示出了用于计算向量路径的示例性算法。
表10:示例向量路径算法
表10的向量路径算法的最坏情况复杂度与表3的停止位算法的最坏情况复杂度相同。然而,向量路径算法2避免了遍及内循环迭代(应当注意,对于内循环,i>j)的数据依赖性,并且可以通过处理器向量单元相对于表3的停止位算法更有效地计算。
在一个实施例中,提供附加指令以计算R=VCONFLICTR(X,Y),这是循环迭代分区的附加表示。此指令使用另外优化的算法,所述算法避免了“max”操作的使用,这在一些处理器中实现可能是昂贵的。使用以下位表示,R表示循环迭代分区,如R=2^(P+1)-1:
表11:基于功率的分区表示
对于计算R,用于计算max(P[i],P[j]+length[j][i])的逻辑可以被替换为用于计算(R[i]|R[j]<<length[j][i])的逻辑(其中“<<”是“左移”操作,并且“|”是“按位或”操作)。可以使用如表12所示的示例性算法利用与P相关的精简硬件逻辑来计算R。
表12:示例性基于功率的分区向量算法
在用较便宜的“<<”操作代替相对较贵的“+”操作的情况下,昂贵的“max”操作被更便宜的“|”操作所取代。因此,利用由表12的功率分区向量算法计算出的如表2中的向量X和Y,可以生成向量,如表13所示。
表13:示例性基于功率的分区向量。
在一个实施例中,使用向量比较操作从R生成用于循环迭代范围的位掩码,如表14所示。
表14:从R向量生成位掩码
可以使用向量比较来基于基于功率的分区向量的元素为每组向量化循环迭代生成单独的位掩码。可以生成对范围0(例如,元素[0,2])中的所有迭代进行分组的、对循环迭代范围1(例如,[3,4])中的第二组迭代进行分组的、以及对范围2(例如,[5,7])中的第三组迭代进行分组的第一位图。
在替代性实施例中,从R生成用于循环迭代范围的位掩码,如表15所示。
表15:替代性从R向量生成位掩码
如表15所示,在一个实施例中,通过重复应用单个位向量比较,随后是向量右移(例如,右移所有向量元素),进一步简化了逻辑。例如,在行(47)处,向量比较设置初始化位掩码中的位以用于R中等于1的对应元素,并且对R执行向量右移以对R的每个元素执行右移。在行(48)处示出了示例性结果向量,其中等于‘1’的向量元素被移动到‘0’,向量元素等于‘11’被移动到‘1’,并且向量元素‘111’被移动到‘11’。该序列可以重复(例如,对于范围1和范围2),直到R的所有元素都等于‘0’。
虽然已经示出了用于说明各种实施例的示例性向量和冲突的三个迭代组,但是分组的数量是基于由向量确定的存储器地址或数组元素之间的冲突的数量来确定的。还将理解,实施例一般可应用于在诸如循环向量化的操作过程中检测存储器冲突。用于实现如本文所述的VCONFLICTP和VCONFLICTR指令的示例性逻辑如下面的图13和图14所示。
图13是根据实施例的用于确定循环迭代分区的逻辑的流程图。在一个实施例中,编译器或处理器逻辑包括用于使数组集合向量化的逻辑,所述数组集合定义了用于如1302处所示的向量化标量操作(例如,向量化循环)的存储器位置。在框1304中,所述逻辑可以扫描向量化数组集合以判定第一向量的元素是否与第二向量的较低索引元素冲突。在框1306中,所述逻辑进一步用于针对每个确定冲突来写入路径长度(例如,在路径矩阵、路径数据结构或被配置为用于存储路径数据的寄存器集合中)。在框1308中,所述逻辑进一步用于基于向量中的元素对之间的最长路径来确定用于所述向量化标量操作的多个迭代分区。循环迭代分区可以例如根据如本文所描述的向量路径算法或基于功率的分区向量算法来确定,然而也可以在各种实施例中执行其他具体实施方式。
示例性处理器实施方式
图14是根据实施例的包括用于执行动态存储器冲突检测的逻辑的处理系统的框图。示例性处理系统包括耦合到主存储器1400的处理器1455。处理器1455包括具有用于解码动态存储器冲突指令的解码逻辑1431的解码单元1430。另外,处理器执行引擎单元1440包括用于执行动态存储器冲突检测指令的附加执行逻辑1441。在执行单元1440执行指令流时,寄存器1405为操作数、控制数据和其他类型的数据提供寄存器存储。
为简单起见,在图14中展示了单个处理器核(“核0”)的细节。然而,将理解的是,图14所示的每个核可以具有与核0相同的逻辑集合。如所展示的,每个核还可以包括用于根据指定的高速缓存管理策略来缓存指令和数据的专用一级(L1)高速缓存1412和二级(L2)高速缓存1411。L1高速缓存1411包括用于存储指令的分开的指令高速缓存1420和用于存储数据的分开的数据高速缓存1421。以高速缓存行的粒度来管理存储在各种处理器高速缓存内的指令和数据,所述粒度可以是固定大小(例如,长度为64、128、512字节)。该示例性实施例的每个核具有:用于从主存储器1400和/或共享三级(L3)高速缓存1416获取指令的指令获取单元1410;用于解码所述指令的解码单元1430;用于执行所述指令的执行单元1440;以及用于引退所述指令并回写结果的回写/引退单元1450。
指令提取单元1410包括各种众所周知的组件,包括:下一个指令指针1403,其用于存储待从存储器1400(或所述高速缓存中的一个)获取的下一个指令的地址;指令翻译后备缓冲器(instruction translation look-aside buffer,ITLB)1404,其用于存储最近使用的虚拟到物理指令地址的映射以提高地址翻译速度;分支预测单元1402,其用于推测性预测指令分支地址;以及多个分支目标缓冲器(BTB)1401,其用于存储多个分支地址和目标地址。一旦获取,指令就被流传输到包括解码单元1430、执行单元1440以及回写/引退单元1450的指令流水线的剩余阶段。
图15是根据实施例的用于执行动态存储器冲突检测的逻辑的流程图。在一个实施例中,处理器包括逻辑,所述逻辑用于获取用于执行向量存储器冲突检测的指令,如1502处所示。在1504处,所述逻辑进一步用于将所述指令解码为经解码的指令。在1506处,所述逻辑进一步用于执行所述经解码的指令以执行向量存储器冲突检测。在1508处,所述逻辑进一步用于基于检测到的冲突写入包含循环迭代分区信息的分区向量。在一个实施例中,所述分区向量是如表8所示的分区向量P。在一个实施例中,所述分区向量是如表13所示的基于功率的分区向量R。
示例性指令格式
本文描述的所述(多个)指令的实施例能够以不同的格式实现。另外,以下详述示例性系统、架构、以及流水线。所述(多个)指令的实施例可以在这样的系统、架构、以及流水线上执行,但不限于所详述的实施例。
向量友好指令格式是适用于向量指令的指令格式(例如,存在某些特定于向量操作的字段)。虽然描述了通过所述向量友好指令格式使向量操作和标量操作均受支持的实施例,但是替代实施例仅使用向量操作向量友好指令格式。
图16A和图16B是框图,展示了根据实施例的通用向量友好指令格式及其指令模板。图16A是框图,展示了根据实施例的通用向量友好指令格式及其A类指令模板;而图16B是框图,展示了根据实施例的通用向量友好指令格式及其B类指令模板。具体地,为通用向量友好指令格式1600限定了A类和B类指令模板,所述指令模板都不包括存储器访问1605指令模板和存储器访问1620指令模板。在向量友好指令格式的上下文中的术语“通用”是指不绑定到任何特定指令集的指令格式。
虽然将描述多个实施例,其中向量友好指令格式支持以下各项:具有32位(4字节)或64位(8字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)(并且因此,64字节向量由16个双字大小元素或者8个四字大小元素组成);具有16位(2字节)或8位(1字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小);具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的32字节向量操作数长度(或大小);以及具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的16字节向量操作数长度(或大小)。然而,替代实施例支持具有更多、更少或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)的更多、更少和/或不同的向量操作数大小(例如,256字节向量操作数)。
图16A中的A类指令模板包括:1)在无存储器访问1605指令模板中,示出了无存储器访问,完全舍入控制式操作1610指令模板和无存储器访问,数据变换式操作1615指令模板;以及2)在存储器访问1620指令模板中,示出了存储器访问,时间1625指令模板和存储器访问,非时效性的1630指令模板。图16B中的B类指令模板包括:1)在无存储器访问1605指令模板中,示出了无存储器访问,写掩码控制、部分舍入控制式操作1612指令模板和无存储器访问、写掩码控制、vsize式操作1617指令模板;以及2)在存储器访问1620指令模板中,示出了存储器访问,写掩码控制1627指令模板。
通用向量友好指令格式1600包括以下按照图16A和图16B所示的次序列出的以下字段。
格式字段1640-该字段中的特定值(指令格式标识符值)唯一地标识所述向量友好指令格式,并且因此在指令流中出现向量友好指令格式的指令。如此,在仅具有通用向量友好指令格式的指令集不需要该字段的情况下,该字段是任性的。
基础操作字段1642-其内容区分不同的基础操作。
寄存器索引字段1644-其内容直接或通过地址生成来指定源操作数和目的地操作数的位置,无论是在寄存器还是存储器中。这些包含足够数量的位以从PxQ(例如32×512、16×128、32×1024、64×1024)寄存器堆中选择N个寄存器。虽然在一个实施例中,N可以是多达三个源和一个目的寄存器,但替代实施例可以支持更多或更少的源和目的寄存器(例如,可以支持多达两个源(其中这些源之一也用作目的地),可以支持多达三个来源(其中一个源也用作目的地),可以支持多达两个源和一个目的地)。
修饰符字段1646-其内容区分通用向量指令格式的指令的出现,所述指令指定来自不是通用向量指令格式的指令的存储器访问;也就是说,在无存储器访问1605指令模板语存储器访问1620指令模板之间。存储器访问操作读和/或写存储器层级(在一些情况下,使用多个寄存器中的值指定所述源和/或目的地址),而无存储器访问操作不读和/或写存储器层级(例如,所述源和目的地是寄存器)。虽然在一个实施例中,该字段还选择三种不同的方式来执行存储器地址计算,但替代实施例可以支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段1650-其内容区分各种不同操作中除了基础操作之外的哪一种有待被执行。该字段是特定于上下文的。在本发明的一个实施例中,该字段被划分为类字段1668、阿尔法字段1652、以及贝塔字段1654。扩充操作字段1650允许在单条指令而不是2条、3条或4条指令中执行常见的操作组。
比例字段1660-其内容允许索引字段的内容按比例缩放以用于存储器地址生成(例如,对于地址生成,使用2比例*索引+基址)。
移位字段1662A-其内容作存储器地址生成的一部分(例如,对于地址生成,使用2比例*索引+基址+移位)。
移位因子字段1662B(注意,移位字段1662A直接并置在移位因子字段1662B上指示使用了一者或另一者)-其内容用作地址生成的一部分;所述移位因子字段指定有待由存储器访问(N)的大小来缩放的移位因子,其中N是存储器访问中的字节数(例如,对于地址生成,使用2比例*变址+基址+经缩放移位)。冗余的低次序位被忽略,并且因此,移位因子字段的内容乘以存储器操作数总大小(N),以便产生用于计算有效地址的最终移位。基于完整的操作数字段1674(在本文后面描述)和数据操作字段1654C,由运行时的处理器硬件确定N的值。移位字段1662A和移位因子字段1662B从不用于无存储器访问1605指令模板和/或不同实施例可以仅实现两者之一或一个都不实现的意义上说是可选的。
数据元素宽度字段1664-其内容区分多个数据元素宽度中的哪一个有待被使用(在一些实施例中,针对所有指令;在其他实施例中,仅针对一些指令)。该字段从其在如果仅支持一个数据元素宽度和/或使用所述操作数的一些方面来支持多个数据元素宽度的情况下则不需要的意义上说是可选的。
写入掩码字段1670-其内容基于每个数据元素位置控制目的向量操作数中的数据元素位置是否反映基址操作和扩充操作的结果。A类指令模板支持合并写入掩码,而B类指令模板支持合并和归零写入掩码。当合并时,向量掩码允许在执行(由所述基址操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集合免受更新;在另一实施例中,在对应的掩码位具有0的情况下保留目的地的每个元素的旧值。相比之下,当归零时,向量掩码允许在执行(由所述基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素归零;在一个实施例中,当对应的掩码位具有0值时,将目的地的元素设置为0。该功能的子集是控制正在执行的操作的向量长度(即正在修改的元素的跨度,从第一个到最后一个)的能力;然而,所修改的元素不必是连续的。因此,写入掩模字段1670允许部分向量操作,包括负载、存储、算术、逻辑等。虽然描述了多个实施例,其中写掩模字段的1670内容选择多个写掩码寄存器中的包含有待使用的写掩码的一个写掩码寄存器(并且因此写掩码字段的1670内容间接地标识要执行的掩码),替代实施例代替地或另外允许掩模写字段的1670内容直接指定有待执行的掩码。
立即数字段1672-其内容允许立即数的指定。该字段从其不存在于不支持立即数的通用向量友好格式的实现中并且不存在于不使用立即数的指令中的意义上说是可选的。
类字段1668-其内容区分不同类别的指令。参考图16A和图16B,该字段的内容在A类和B类指令之间进行选择。在图16A和图16B中,使用圆角方格指示字段(例如,图16A和图16B中分别为类字段1668的A类字段1668A和B类字段1668B)中存在特定值。
A类指令模板
在无存储器访问1605A类指令模板的情况下,阿尔法字段1652被解释为RS字段1652A,其内容区分所述不同扩充操作类型中的哪一种有待执行(例如,舍入1652A.1和数据变换1652A.2分别被指定用于无存储器访问舍入式操作1610和无存储器访问数据变换式操作1615指令模板),而贝塔字段1654区分所指定类型的操作中的哪一个有待执行。在无存储器访问1605指令模板中,不存在比例字段1660、移位字段1662A、以及移位比例字段1662B。
非存储器访问指令模板-完全舍入控制式操作
在无存储器访问完全舍入控制式操作1610指令模板中,贝塔字段1654被解释为舍入控制字段1654A,其(多项)内容提供静态舍入。虽然在所描述的实施例中,舍入控制字段1654A包括抑制所有浮点异常(SAE)字段1656和舍入操作控制字段1658,但替代实施例可以支持并可以将这两个概念编码到同一个字段中、或者仅具有这些概念/字段中的一者或另一者(例如,可以只具有舍入操作控制字段1658)。
SAE字段1656-其内容区分是否禁用异常事件报告;当SAE字段的1656内容表示抑制被启用时,给定指令不会报告任何类型的浮点异常标志并且不引发任何浮点异常处理程序。
舍入操作控制字段1658-其内容区分一组舍入操作中的哪一个要执行(例如,上入、下舍、朝向零舍入以及舍入到最近整数)。因此,舍入操作控制字段1658允许基于每条指令改变舍入模式。在本发明的其中处理器包括用于指定舍入模式的控制寄存器的一个实施例中,舍入操作控制字段的1650内容覆盖所述寄存器的值。
非存储器访问指令模板-数据变换式操作
在无存储器访问数据变换式操作1615指令模板中,贝塔字段1654被解释为数据变换字段1654B,其内容区分多项数据变换的哪一项有待执行(例如,无数据变换、混合、广播)。
在存储器访问1620A类指令模板的情况下,阿尔法字段1652被解释为驱逐提示字段1652B,其内容区分驱逐提示中的哪一个有待使用(在图16A中,时间1652B.1和非时间1652B.2分别被指定用于存储器访问时间1625指令模板和存储器访问非时间1630指令模板),而贝塔字段1654被解释为数据操纵字段1654C,其内容区分多项数据操纵操作(也称为原语)中的哪一些有待执行(例如,无操纵;广播;源的向上转换;以及目的地的向下转换)。存储器访问1620指令模板包括比例字段1660、以及可选的移位字段1662A或移位比例字段1662B。
向量存储器指令通过转换支持对来存储器执行向量加载和向量存储。与常规向量指令一样,向量存储器指令以数据元素方式传送来自存储器的数据或将数据传送到存储器,实际传送的元素由被选择为写入掩码的向量掩码的内容决定。
存储器访问指令模板-时间
时效性的数据是可能很快重新使用足以从高速缓存中受益的数据。然而,这是一个提示,并且不同的处理器能够以不同的方式实现所述时态数据,包括完全忽略提示。
存储器访问指令模板-非时态
非时效性的数据是在一级高速缓存中不太可能很快重新使用足以从高速缓存中受益的数据,并且应优先考虑驱逐。然而,这是一个提示,并且不同的处理器能够以不同的方式实现所述时态数据,包括完全忽略提示。
B类指令模板
在B类指令模板的情况下,阿尔法字段1652被解释为写掩码控制(Z)字段1652C,其内容区分由写掩码字段1670控制的写掩码应为合并还是归零。
在无存储器访问1605B类指令模板的情况下,贝塔字段1654的一部分被解释为RL字段1657A,其内容区分所述不同扩充操作类型中的哪一种有待执行(例如,舍入1657A.1和向量长度(VSIZE)1657A.2分别被指定用于无存储器访问写掩码操作部分舍入控制式操作1612指令模块和无存储器访问写掩码控制VSIZE式操作1617指令模板),而贝塔字段1654的其余部分区分所指定类型的操作中的哪一个有待执行。在无存储器访问1605指令模板中,不存在比例字段1660、移位字段1662A、以及移位比例字段1662B。
在无存储器访问写掩码操作部分舍入控制式操作1610指令模块中,贝塔字段1654的其余部分被解释为舍入操作字段1659A,并且异常事件报告被禁用(给定指令不报告任何类型的浮点异常标志并且不引发任何浮点异常处理程序)。
舍入操作控制字段1659A(就像舍入操作控制字段1658一样)-其内容区分一组舍入操作中的哪一个要执行(例如,上入、下舍、朝向零舍入以及舍入到最近整数)。因此,舍入操作控制字段1659A允许基于每条指令改变舍入模式。在本发明的其中处理器包括用于指定舍入模式的控制寄存器的一个实施例中,舍入操作控制字段的1650内容覆盖所述寄存器的值。
在无存储器访问写掩码控制VSIZE式操作1617指令模板中,贝塔字段1654的其余部分被解释为向量长度字段1659B,其内容区分多个数据向量长度的哪一个有待执行(例如,128、256或512字节)。
在存储器访问1620B类指令模板的情况下,贝塔字段1654的一部分被解释为广播字段1657B,其内容区分是否要执行广播式数据操纵操作,而贝塔字段1654的其余部分被解释为向量长度字段1659B。存储器访问1620指令模板包括比例字段1660、以及可选的移位字段1662A或移位比例字段1662B。
关于通用向量友好指令格式1600,示出了包括格式字段1640、基础操作字段1642以及数据元素宽度字段1664的全操作码字段1674。尽管示出了全操作码字段1674包括所有这些字段的一个实施例,但在不支持所有这些字段的实施例中全操作码字段1674包括比所有这些字段更少的字段。全操作码字段1674提供操作代码(操作数)。
扩充操作字段1650、数据元素宽度字段1664以及写掩码字段1670允许基于每条指令以通用向量友好指令格式指定这些特征。
写掩码字段和数据元素宽度字段的组合创建了多个类型化指令,因为它们允许基于不同数据元素宽度应用掩码。
在A类和B类中发现的各种指令模板在不同情况下都是有益的。在一些实施例中,不同处理器或处理器内的不同的核仅支持A类、仅支持B类或支持两类。例如,旨在用于通用计算的高性能通用乱序核可以仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可以仅支持A类,并且旨在用于支持两者的核可以支持两者(当然,具有来自两类的模板和指令的一些混合而不是来自两类的所有模板和指令的核是在本发明的范围内)。此外,单个处理器可以包括多个核,所有这些核都支持相同的类,或者其中不同的核支持不同的类。例如,在具有分开的图形核和通用核的处理器中,旨在主要用于图形和/或科学计算的图形核之一可以仅支持A类,而通用核中的一者或多者可以是高性能通用核,其中乱序执行和寄存器重命名旨在用于仅支持类B的通用计算。不具有分开的图形核的另一处理器可以包括支持A类和B类两者的更为通用的有序或乱序核。当然,在不同实施例中,来自一类的特征也可以在另一类中实现。以高级语言书写的程序将被放入(例如,及时编译或静态编译)到各种不同的可执行形式中,包括:1)仅具有由用于执行的目标处理器支持的类的指令的形式;或2)具有使用所有类别的指的不同组合书写的替代例程并且具有控制流程代码的形式,所述控制流程代码基于当前正在执行代码的处理器所支持的指令来选择要执行的例程。
示例性专用向量友好指令格式
图17是框图,展示了根据实施例的示例性专用向量友好指令格式。图17示出了专用向量友好指令格式1700,所述专用向量友好指令格式从其指定所述字段的位置、大小、解释和次序以及某些字段的值的意义上说是特定的。可以使用专用向量友好指令格式1700来扩展x86指令集,并且因此所述字段中的一些字段与现有的x86指令集及其扩展(例如,AVX)中使用的字段相似或相同。该格式与现有的带有扩展的x86指令集的前缀编码字段、实际操作数字节字段、MOD R/M字段、SIB字段、移位字段、以及立即数字段保持一致。示出了来自图16的从图17映射到其中的字段。
应当理解的是,尽管为了说明的目的,在通用向量友好指令格式1600的上下文中参考专用向量友好指令格式1700来描述实施例,但是本发明不限于专用向量友好指令格式1700,除非声称。例如,通用向量友好指令格式1600考虑了各种字段的各种可能的大小,而专用向量友好指令格式1700被示出为具有特定大小的字段。作为特定示例,虽然数据元素宽度字段1664被示为专用向量友好指令格式1700中的一位字段,但本发明不限于此(即,通用向量友好指令格式1600考虑了其他大小的数据元素宽度字段1664)。
通用向量友好指令格式1600包括以下按照图17A所示的次序列出的以下字段。
EVEX前缀(字节0-3)1702以四字节形式编码。
格式字段1640(EVEX字节0,位[7:0])-第一字节(EVEX字节0)是格式字段1640,并且所述第一字节包含0x62(在本发明的一个实施例中,用于区分向量友好指令格式的唯一值)。
第二至第四字节(EVEX字节1-3)包括提供特定能力的多个位字段。
REX字段1705(EVEX字节1,位[7-5])由EVEX.R位字段(EVEX字节1,位[7]-R)、EVEX.X位字段(EVEX字节1,位[6]-X)和1657BEX字节1,位[5]-B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能,并且使用ls补码形式进行编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。指令的其他字段对如本领域已知的(rrr,xxx和bbb)编码寄存器索引的低3位进行编码,以便可以通过添加EVEX.R、EVEX.X、以及EVEX.B来形成Rrrr、Xxxx、以及Bbbb。
REX’字段1610-这是REX’字段1610的第一部分并且是用于对扩展的32寄存器集的较高16或较低16进行编码的EVEX.R’位字段(EVEX字节1,位[4]-R’)。在本发明的一个实施例中,该位以及如下所指示的其他位以位反转格式存储,以(在众所周知的x86 32位模式中)从BOUND指令区分谁的实际操作数字节为62,但是在MOD R/M字段中不接受MOD字段中的11的值;替代实施例不以反转格式存储该位和下面的指示的其他位。使用值1来对较低的16个寄存器进行编码。换句话说,R’Rrrr是通过将EVEX.R’、EVEX.R和来自其他字段的另一RRR组合而形成的。
操作码映射字段1715(EVEX字节1,位[3:0]-mmmm)-其内容对隐含的前导操作数字节(0F、0F 38、或0F 3)进行编码。
数据元素宽度字段1664(EVEX字节2,位[7]-W)-用符号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(大小)。
EVEX.vvvv 1720(EVEX字节2,位[6:3]-vvvv)-EVEX.vvvv的作用可以包括以下内容:1)EVEX.vvvv对第一源寄存器操作数进行编码,以反向(ls补码)形式指定,并且对于具有2个或更多个源操作数的指令有效;2)EVEX.vvvv对目的地寄存器操作数进行编码,对于某些向量移位以ls补码形式指定;或者3)EVEX.vvvv不对任何操作数进行编码,所述字段被保留并且应包含1111b。因此,EVEX.vvvv字段1720对以反转(ls补码)形式存储的第一源寄存器说明符的4个低次序位进行编码。取决于指令,使用另外不同的EVEX位字段将说明符大小扩展到32个寄存器。
EVEX.U 1668类字段(EVEX字节2,位[2]-U)-如果EVEX.U=0,则所述类字段表示A类或EVEX.U0;如果EVEX.U=1,则所述类字段表示B类或EVEX.U1。
前缀编码字段1725(EVEX字节2,位[1:0]-pp)为所述基础操作字段提供多个附加位。除了为EVEX前缀格式的传统SSE指令提供支持之外,所述前缀编码字段还具有压缩SIMD前缀的优点(而不是要求一个字节来表示SIMD前缀,EVEX前缀只需要2位)。在一个实施例中,为了支持使用传统格式和EVEX前缀格式的SIMD前缀(66H、F2H、F3H)的传统SSE指令,这些传统SIMD前缀被编码到SIMD前缀编码字段中;并且在运行时在提供给解码器的PLA之前扩展到传统SIMD前缀中(因此,PLA可以同时执行这些传统指令的传统格式和EVEX格式,而无需修改)。虽然较新的指令可以将EVEX前缀编码字段的内容的直接用作操作数扩展,但是为了一致性,某些实施例以类似的方式扩展但允许由这些传统SIMD前缀指定不同的含义。替代实施例可以重新设计PLA以支持2位SIMD前缀编码,并且因此不需要扩展。
阿尔法字段1652(EVEX字节3,位[7]-EH;也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制和EVEX.N;也用α表示)-如前所述,该字段是特定于上下文的。
贝塔字段1654(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;也用βββ表示)-如前所述,该字段是特定于上下文的。
REX’字段1610-这是REX’字段的其余部分并且是可以用于对扩展的32寄存器集的较高16或较低16进行编码的EVEX.V’位字段(EVEX字节3,位[3]-V’)。该位是以位反转格式存储的。使用值1来对较低的16个寄存器进行编码。换句话说,V’VVVV是通过组合EVEX.V’、EVEX.vvvv形成的。
写掩码字段1670(EVEX字节3,位[2:0]-kkk)-其内容指定写掩码寄存器中的寄存器的索引,如前所述。在本发明的一个实施例中,特定值EVEX.kkk=000具有特定的行为,意味着没有写掩码用于特定指令(这能够以各种方式实现,包括使用硬连线到所有或绕过掩码硬件的硬件的写掩码)。
实际操作数字段1730(字节4)也称为操作数字节。在此字段中指定所述操作数的一部分。
MOD R/M字段1740(字节5)包括MOD字段1742、Reg字段1744、以及R/M字段1746。如前所述,MOD字段的1742内容在存储器访问和无存储器访问操作之间进行区分。Reg字段1744的作用可以归结为两种情况:对目的地寄存器操作数或源寄存器操作数进行编码,或者被视为操作数扩展并且不用于对任何指令操作数进行编码。R/M字段1746的作用可以包括如下:对引用存储器地址的指令操作数进行编码,或对目的地寄存器操作数或源寄存器操作数进行编码。
比例索引基址(SIB)字节(字节6)-如前所述,比例字段的1650内容用于存储器地址生成。SIB.xxx 1754和SIB.bbb 1756-这些字段的内容先前已经参考了寄存器索引Xxxx和Bbbb。
移位字段1662A(字节7-10)-当MOD字段1742包含10时,字节7-10是移位字段1662A,并且所述移位字段与传统32位移位(disp32)一样工作并且以字节粒度工作。
移位因子字段1662B(字节7)-当MOD字段1742包含01时,字节7是移位因子字段1662B。这个字段的位置与传统的x86指令集8位移位(disp8)的位置相同,所述字段以字节粒度工作。由于disp8是扩展符号,它只能在-128和127字节偏移之间寻址;就64字节高速缓存线而言,disp8使用只能设置四个非常有用的值-128、-64、0和64的8位;由于通常需要更大的范围,因此使用disp32;然而,disp32需要4个字节。与disp8和disp32相比,移位因子字段1662B是disp8的重新解释;当使用移位因子字段1662B时,实际移位由移位因子字段的内容乘以存储器操作数访问(N)的大小来确定。这种类型的移位称为disp8*N。这减少了平均指令长度(用于移位的单个字节,但具有更大的范围)。这样的压缩移位是基于有效移位是存储访问粒度的倍数的假设,并且因此地址偏移的冗余低次序位不需要进行编码。换句话说,移位因子字段1662B代替传统的x86指令集8位移位。因此,移位因子字段1662B以与x86指令集8位移位相同的方式进行编码(因此ModRM/SIB编码规则没有变化),只有disp8超载到disp8*N除外。换句话说,编码规则或编码长度没有变化,但只有在由硬件解释移位值(这需要通过按存储器操作数的大小来缩放移位来获得字节地址偏移)时如此。
立即数字段1672如前所述地操作。
完整操作数字段
图17B是框图,展示了根据本发明的一个实施例的专用向量友好指令格式1700的构成全操作码字段1674的字段。具体地,全操作码字段1674包括格式字段1640、基础操作字段1642以及数据元素宽度(W)字段1664。基础操作字节1642包括前缀编码字段1725、操作码映射字段1715、以及实际操作码字段1730。
寄存器变址字段
图17C是框图,展示了根据本发明的一个实施例的构成完整寄存器变址字段1644的专用向量友好指令格式1700的字段。具体地,寄存器索引字段1644包括REX字段1705、REX’字段1710、MODR/M.reg字段1744、MODR/Mr/m字段1746、VVVV字段1720、xxx字段1754、以及bbb字段1756。
扩充操作字段
图17D是框图,展示了根据本发明的一个实施例的专用向量友好指令格式1700的构成扩充操作字段1650的字段。当类(U)字段1668包含0时,所述字段表示EVEX.U0(A类1668A);当所述字段包含1时,所述字段表示EVEX.U1(B类1668B)。当U=0并且MOD字段1742包含11(表示无存储器访问操作)时,阿尔法字段1652(EVEX字节3,位[7]-EH)被解释为rs字段1652A。当rs字段1652A包含1(舍入1652A.1)时,贝塔字段1654(EVEX字节3,位[6:4]-SSS)被解释为舍入控制字段1654A。舍入控制字段1654A包括一位SAE字段1656和两位舍入操作字段1658。当rs字段1652A包含0(数据变换1652A.2)时,贝塔字段1654(EVEX字节3,位[6:4]-SSS)被解释为三位数据变换字段1654B。当U=0并且MOD字段1742包含00、01或10(表示存储器访问操作)时,阿尔法字段1652(EVEX字节3,位[7]-EH)被解释为驱逐提示(EH)字段1652B,并且贝塔字段1654(EVEX字节3,位[6:4]-SSS)被解释为三位数据操纵字段1654C。
当U=1时,阿尔法字段1652(EVEX字节3,位[7]-EH)被解释为写掩码控制(Z)字段1652C。当U=1并且MOD字段1742包含11(表示非存储器访问操作)时,贝塔字段1654的一部分(EVEX字节3,位[4]-S0)被解释为RL字段1657A;当所述RL字段包含1(舍入1657A.1)时,贝塔字段1654的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为舍入操作字段1659A,而当RL字段1657A包含0(VSIZE 1657.A2)时,贝塔字段1654的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段1659B(EVEX字节3,位[6-5]-L1-0)。当U=1并且MOD字段1742包含00、01或10(表示存储器访问操作)时,贝塔字段1654(EVEX字节3,位[6:4]-SSS)被解释为向量长度字段1659B(EVEX字节3,位[6-5]-L1-0)和广播字段1657B(EVEX字节3,位[4]-B)。
示例性寄存器架构
图18是根据本发明一个实施例的方法的寄存器架构1800的框图。在所示的实施例中,存在512位宽的32个向量寄存器1810;这些寄存器的参考号为zmm0到zmm31。较低的16个zmm寄存器的次序较低的256位叠加在寄存器ymm0-16上。较低的16个zmm寄存器的次序较低的128位(ymm寄存器的次序较低的128位)叠加在寄存器xmm0-15上。专用向量友好指令格式1700对这些叠加的寄存器堆进行操作,如下表4所示。
表4:叠加式寄存器堆
换句话说,向量长度字段1659B在最大长度与一个或多个其他较短长度之间进行选择,其中每个这样的较短长度是前一长度的一半长度;并且没有向量长度字段1659B的指令模板对最大向量长度进行操作。进一步地,在一个实施例中,专用向量友好指令格式1700的B类指令模板对压缩或标量单/双精度浮点数据以及压缩或标量整数数据进行操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶的数据元素位置执行的操作;取决于所述实施例,次序较高的数据元素位置或者在所述指令之前保持不变或者被归零。
写入掩码寄存器1815-在所示实施例中,存在8个写入掩码寄存器(k0至k7),每个写入掩码寄存器的大小为64位。在替代实施例中,写掩码寄存器1815的大小为16位。如前所述,在本发明的一个实施例中,向量掩模寄存器k0不能用作写入掩码;当通常指示k0的编码用于写入掩码时,所述向量掩模寄存器选择0xFFFF的硬连线写入掩码,有效地禁止所述指令的写入掩码。
通用寄存器1825-在所示实施例中,存在十六个64位通用寄存器,所述通用寄存器与现有的x86寻址模式一起使用以对多个存储器操作数进行寻址。这些寄存器用名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、以及R8到R15作为参考标记。
标量浮点堆栈寄存器堆(x87堆栈)1845,在其上重叠有MMX压缩整数平面寄存器堆1850-在所示实施例中,x87堆栈是用于使用x87指令集扩展对32位/64位/80位浮点数据字节执行标量浮点操作的八元素堆栈;而MMX寄存器用于对64位压缩整数数据执行操作,以及为在MMX寄存器与XMM寄存器之间执行的某些操作保存操作数。
替代实施例可以使用更宽或更窄的寄存器。另外,替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。
在以上说明书中,已经参照本发明的特定示例性实施例描述了本发明。然而,在不偏离所附权利要求中阐述的本发明的更广精神和范围的情况下,将显然的是可对其进行各种修改和改变。相应地,本说明书和附图中应被视为说明性的而非限制性的。
本文所描述的指令指代硬件的具体配置,例如被配置为用于执行某些操作或具有预定功能的专用集成电路(ASIC)。这样的电子设备典型地包括耦合到一个或多个其他组件(例如,一个或多个存储设备(非瞬态机器可读存储媒体)、用户输入/输出设备(例如键盘、触摸屏和/或显示器)、以及网络连接件)的一组一个或多个处理器。所述一组处理器和其他组件的耦合典型地通过一个或多个总线和桥接器(也称为总线控制器)。存储设备和携带网络流量的信号分别代表一个或多个机器可读存储媒体和机器可读通信媒体。因此,给定电子设备的存储设备典型地存储用于在所述电子设备的所述一组一个或多个处理器上执行的代码和/或数据。
当然,可以使用软件、固件和/或硬件的不同组合来实现本发明的实施例的一个或多个部分。在本文整个详细描述中,出于解释的目的,阐述了许多具体的细节以便提供对本发明的彻底理解。然而,对于本领域技术人员而言,可以在不具有这些具体细节中的一些细节的情况下实践本发明将是明显的。在某些情况下,为了避免模糊本发明的主题,未详细描述公知的结构和功能。因此,本发明的范围和精神应根据以下权利要求来判定。

Claims (25)

1.一种处理装置,包括:
解码逻辑,所述解码逻辑用于将第一指令解码为经解码的第一指令,所述经解码的指令包括第一操作数和第二操作数;以及
执行单元,所述执行单元用于执行所述第一经解码的指令以执行针对向量化迭代标量操作的存储器冲突检测并且导出包括至少一个无冲突的标量迭代组的分区向量;以及
寄存器堆单元,所述寄存器堆单元用于将所述分区向量提交到由目的地操作数指定的位置。
2.如权利要求1所述的处理装置,进一步包括用于获取所述第一指令的指令获取单元,其中,所述指令是单个机器级指令。
3.如权利要求1所述的处理装置,其特征在于,所述寄存器堆单元进一步用于存储包括以下各项的一组寄存器:
第一寄存器,所述第一寄存器用于存储第一源操作数值;
第二寄存器,所述第二寄存器用于存储第二源操作数值;以及
第三寄存器,所述第三寄存器用于存储指示无冲突的标量迭代组的至少一个数据元素集合。
4.如权利要求3所述的处理装置,其特征在于,所述第一、第二和第三寄存器中的每一个都是向量寄存器。
5.如权利要求4所述的处理装置,其特征在于,所述向量寄存器是128位或256位寄存器。
6.如权利要求4所述的处理装置,其特征在于,所述向量寄存器是512位寄存器。
7.如权利要求4所述的处理装置,其特征在于,所述第一和第二寄存器包括向量化数组,所述向量化数组包括用于所述向量化迭代标量迭代的存储器位置。
8.如权利要求7所述的处理装置,其特征在于,所述执行单元进一步用于扫描所述向量化数组以判定第一向量的索引处的元素是否与第二向量中的元素冲突。
9.如权利要求8所述的处理装置,其特征在于,当所述第一向量的在第一索引处的元素等于所述第二向量中在第二索引处的元素并且所述第二索引小于所述第一索引时,确定冲突。
10.如权利要求9所述的处理装置,其特征在于,所述执行单元进一步用于针对每个确定的冲突写入路径长度。
11.如权利要求10所述的处理装置,其特征在于,所述执行单元进一步用于基于元素对之间的最长路径来确定用于所述向量化标量操作的迭代分区。
12.如权利要求1-11中任一项所述的处理装置,其特征在于,所述执行单元进一步用于从所述分区向量中导出一组写掩码,以用于执行多个标量迭代作为并行向量操作。
13.一种机器可读介质,具有存储在其上的数据,所述数据如果由至少一个机器执行则使所述至少一个机器制造用于执行以下操作的至少一个集成电路,所述操作包括:
获取用于执行针对向量化迭代标量操作的存储器冲突检测的单个指令,所述指令具有两个源操作数;
将所述单个指令解码为经解码的指令;
获取与所述两个源操作数相关联的源操作数值;以及
执行所述经解码的指令以导出包括至少一个无冲突的标量迭代组的分区向量。
14.如权利要求13所述的介质,其特征在于,所述集成电路用于执行包括以下操作的进一步操作:将所述分区向量提交到由目的地操作数指定的位置。
15.如权利要求14所述的介质,其特征在于,所述集成电路用于执行包括以下操作的进一步操作:从所述分区向量中导出一组写掩码以用于执行多个标量迭代作为并行向量操作。
16.如权利要求13所述的介质,其特征在于,所述源操作数指示第一和第二向量寄存器,每个寄存器包括包含用于一组向量化迭代标量迭代的存储器位置的向量化数组。
17.如权利要求16所述的介质,其特征在于,所述集成电路用于执行包括以下操作的进一步操作:扫描一组向量化数组以判定第一向量的索引处的元素是否与第二向量中的元素冲突,其中,确定冲突包括当所述第一向量的在第一索引处的元素等于所述第二向量中在第二索引处的元素并且所述第二索引小于所述第一索引时进行确定。
18.如权利要求17所述的介质,其特征在于,所述集成电路用于执行包括以下操作的进一步操作:针对每个确定的冲突写入路径长度并且基于元素对之间的最长路径来确定用于所述向量化标量操作的迭代分区。
19.一种用于使用集成电路来执行动态存储器冲突检测的方法,所述方法包括:
获取用于执行针对向量化迭代标量操作的存储器冲突检测的单个指令,所述指令具有两个源操作数;
将所述单个指令解码为经解码的指令;
获取与所述两个源操作数相关联的源操作数值;以及
执行所述经解码的指令以导出包括至少一个无冲突的标量迭代组的分区向量。
20.如权利要求19所述的方法,进一步包括:将所述分区向量提交到由目的地操作数指定的位置。
21.如权利要求20所述的方法,进一步包括:从所述分区向量中导出一组写掩码以用于执行多个标量迭代作为并行向量操作。
22.如权利要求19所述的方法,其特征在于,所述源操作数指示第一和第二向量寄存器,每个寄存器包括包含用于一组向量化迭代标量迭代的存储器位置的向量化数组。
23.如权利要求22所述的方法,进一步包括:扫描一组向量化数组以判定第一向量的索引处的元素是否与所述第二向量中的元素冲突。
24.如权利要求23所述的方法,其特征在于,确定冲突包括当所述第一向量的在第一索引处的元素等于所述第二向量中在第二索引处的元素并且所述第二索引小于所述第一索引时进行确定。
25.如权利要求24所述的方法,进一步包括:针对每个确定的冲突写入路径长度并且基于元素对之间的最长路径来确定用于所述向量化标量操作的迭代分区。
CN201580063871.0A 2014-12-23 2015-11-16 快速向量动态存储器冲突检测 Active CN107257955B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/581,996 2014-12-23
US14/581,996 US20160179550A1 (en) 2014-12-23 2014-12-23 Fast vector dynamic memory conflict detection
PCT/US2015/060818 WO2016105691A1 (en) 2014-12-23 2015-11-16 Fast vector dynamic memory conflict detection

Publications (2)

Publication Number Publication Date
CN107257955A true CN107257955A (zh) 2017-10-17
CN107257955B CN107257955B (zh) 2021-02-26

Family

ID=56129486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580063871.0A Active CN107257955B (zh) 2014-12-23 2015-11-16 快速向量动态存储器冲突检测

Country Status (7)

Country Link
US (1) US20160179550A1 (zh)
EP (1) EP3238091B1 (zh)
JP (1) JP6807073B2 (zh)
KR (1) KR20170097628A (zh)
CN (1) CN107257955B (zh)
TW (2) TW201723883A (zh)
WO (1) WO2016105691A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984328A (zh) * 2020-04-30 2020-11-24 中科院计算所西部高等技术研究院 具有ooda循环分区机制的流式处理器
CN117539469A (zh) * 2024-01-10 2024-02-09 睿思芯科(成都)科技有限公司 Risc-v的可视化向量编程方法、系统及相关设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176608A (zh) * 2016-04-26 2020-05-19 中科寒武纪科技股份有限公司 一种用于执行向量比较运算的装置和方法
US11127167B2 (en) * 2019-04-29 2021-09-21 Nvidia Corporation Efficient matrix format suitable for neural networks
US11836527B2 (en) * 2021-08-02 2023-12-05 Nvidia Corporation Accelerating table lookups using a decoupled lookup table accelerator in a system on a chip
US20230214217A1 (en) * 2022-01-06 2023-07-06 Maziar Goudarzi Method and device for providing a vector stream instruction set architecture extension for a cpu

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124160B2 (en) * 2000-03-08 2006-10-17 Sun Microsystems, Inc. Processing architecture having parallel arithmetic capability
US20080288759A1 (en) * 2007-05-14 2008-11-20 Gonion Jeffry E Memory-hazard detection and avoidance instructions for vector processing
US20080288744A1 (en) * 2007-05-14 2008-11-20 Apple Inc. Detecting memory-hazard conflicts during vector processing
US20080288745A1 (en) * 2007-05-14 2008-11-20 Apple Inc. Generating predicate values during vector processing
US7793084B1 (en) * 2002-07-22 2010-09-07 Mimar Tibet Efficient handling of vector high-level language conditional constructs in a SIMD processor
US20130166516A1 (en) * 2011-12-23 2013-06-27 Arm Limited Apparatus and method for comparing a first vector of data elements and a second vector of data elements
CN103279327A (zh) * 2013-04-28 2013-09-04 中国人民解放军信息工程大学 面向异构simd扩展部件的自动向量化方法
US20140095843A1 (en) * 2012-09-28 2014-04-03 Christopher J. Hughes Systems, Apparatuses, and Methods for Performing Conflict Detection and Broadcasting Contents of a Register to Data Element Positions of Another Register
US20140095779A1 (en) * 2012-09-28 2014-04-03 Andrew T. Forsyth Processing memory access instructions that have duplicate memory indices
US20140181580A1 (en) * 2012-12-21 2014-06-26 Jayashankar Bharadwaj Speculative non-faulting loads and gathers
CN104050025A (zh) * 2013-03-15 2014-09-17 亚德诺半导体技术公司 在存在可能的存储器别名的情况下并行化循环
WO2014142972A1 (en) * 2013-03-15 2014-09-18 Intel Corporation Methods and systems to vectorize scalar computer program loops having loop-carried dependences
US20140289498A1 (en) * 2013-03-19 2014-09-25 Apple Inc. Enhanced macroscalar vector operations
CN104081336A (zh) * 2011-12-23 2014-10-01 英特尔公司 用于检测向量寄存器内的相同元素的装置和方法
US20140298306A1 (en) * 2013-03-29 2014-10-02 Hongbo Rong Software pipelining at runtime
CN104126171A (zh) * 2011-12-27 2014-10-29 英特尔公司 用于基于两个源写掩码寄存器生成依赖向量的系统、装置和方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68927313T2 (de) * 1988-06-27 1997-05-07 Digital Equipment Corp Operandenspezifiererverarbeitung
US7502912B2 (en) * 2003-12-30 2009-03-10 Intel Corporation Method and apparatus for rescheduling operations in a processor
US7627735B2 (en) * 2005-10-21 2009-12-01 Intel Corporation Implementing vector memory operations
US20100270671A1 (en) * 2009-04-28 2010-10-28 Lsi Corporation Manipulating fill patterns during routing
US8688957B2 (en) * 2010-12-21 2014-04-01 Intel Corporation Mechanism for conflict detection using SIMD
US8972698B2 (en) * 2010-12-22 2015-03-03 Intel Corporation Vector conflict instructions
US20120254589A1 (en) * 2011-04-01 2012-10-04 Jesus Corbal San Adrian System, apparatus, and method for aligning registers
US9116686B2 (en) * 2012-04-02 2015-08-25 Apple Inc. Selective suppression of branch prediction in vector partitioning loops until dependency vector is available for predicate generating instruction
US9772854B2 (en) * 2012-06-15 2017-09-26 International Business Machines Corporation Selectively controlling instruction execution in transactional processing
US20130339680A1 (en) * 2012-06-15 2013-12-19 International Business Machines Corporation Nontransactional store instruction
US9372692B2 (en) * 2012-12-29 2016-06-21 Intel Corporation Methods, apparatus, instructions, and logic to provide permute controls with leading zero count functionality
US9411584B2 (en) * 2012-12-29 2016-08-09 Intel Corporation Methods, apparatus, instructions, and logic to provide vector address conflict detection functionality

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124160B2 (en) * 2000-03-08 2006-10-17 Sun Microsystems, Inc. Processing architecture having parallel arithmetic capability
US7793084B1 (en) * 2002-07-22 2010-09-07 Mimar Tibet Efficient handling of vector high-level language conditional constructs in a SIMD processor
US20080288759A1 (en) * 2007-05-14 2008-11-20 Gonion Jeffry E Memory-hazard detection and avoidance instructions for vector processing
US20080288744A1 (en) * 2007-05-14 2008-11-20 Apple Inc. Detecting memory-hazard conflicts during vector processing
US20080288745A1 (en) * 2007-05-14 2008-11-20 Apple Inc. Generating predicate values during vector processing
US20130166516A1 (en) * 2011-12-23 2013-06-27 Arm Limited Apparatus and method for comparing a first vector of data elements and a second vector of data elements
CN104081336A (zh) * 2011-12-23 2014-10-01 英特尔公司 用于检测向量寄存器内的相同元素的装置和方法
CN104126171A (zh) * 2011-12-27 2014-10-29 英特尔公司 用于基于两个源写掩码寄存器生成依赖向量的系统、装置和方法
US20140095779A1 (en) * 2012-09-28 2014-04-03 Andrew T. Forsyth Processing memory access instructions that have duplicate memory indices
US20140095843A1 (en) * 2012-09-28 2014-04-03 Christopher J. Hughes Systems, Apparatuses, and Methods for Performing Conflict Detection and Broadcasting Contents of a Register to Data Element Positions of Another Register
US20140181580A1 (en) * 2012-12-21 2014-06-26 Jayashankar Bharadwaj Speculative non-faulting loads and gathers
CN104050025A (zh) * 2013-03-15 2014-09-17 亚德诺半导体技术公司 在存在可能的存储器别名的情况下并行化循环
WO2014142972A1 (en) * 2013-03-15 2014-09-18 Intel Corporation Methods and systems to vectorize scalar computer program loops having loop-carried dependences
US20140289498A1 (en) * 2013-03-19 2014-09-25 Apple Inc. Enhanced macroscalar vector operations
US20140298306A1 (en) * 2013-03-29 2014-10-02 Hongbo Rong Software pipelining at runtime
CN103279327A (zh) * 2013-04-28 2013-09-04 中国人民解放军信息工程大学 面向异构simd扩展部件的自动向量化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984328A (zh) * 2020-04-30 2020-11-24 中科院计算所西部高等技术研究院 具有ooda循环分区机制的流式处理器
CN111984328B (zh) * 2020-04-30 2023-01-20 中科院计算所西部高等技术研究院 具有ooda循环分区机制的流式处理器
CN117539469A (zh) * 2024-01-10 2024-02-09 睿思芯科(成都)科技有限公司 Risc-v的可视化向量编程方法、系统及相关设备
CN117539469B (zh) * 2024-01-10 2024-03-19 睿思芯科(成都)科技有限公司 Risc-v的可视化向量编程方法、系统及相关设备

Also Published As

Publication number Publication date
TW201723883A (zh) 2017-07-01
EP3238091B1 (en) 2020-05-13
EP3238091A1 (en) 2017-11-01
JP6807073B2 (ja) 2021-01-06
TW201640379A (zh) 2016-11-16
JP2018500659A (ja) 2018-01-11
TWI564733B (zh) 2017-01-01
CN107257955B (zh) 2021-02-26
KR20170097628A (ko) 2017-08-28
WO2016105691A1 (en) 2016-06-30
EP3238091A4 (en) 2018-07-25
US20160179550A1 (en) 2016-06-23

Similar Documents

Publication Publication Date Title
CN106293640B (zh) 用于紧密耦合的异构计算的硬件处理器、方法以及硬件装置
CN104813277B (zh) 用于处理器的功率效率的向量掩码驱动时钟门控
CN109791488A (zh) 用于执行用于复数的融合乘-加指令的系统和方法
CN104838357B (zh) 向量化方法、系统及处理器
CN104137060B (zh) 高速缓存协处理单元
CN109478139A (zh) 用于共享存储器中的访问同步的装置、方法和系统
CN107257955A (zh) 快速向量动态存储器冲突检测
CN107003843A (zh) 用于对向量元素集合执行约减操作的方法和设备
CN108804137A (zh) 用于双目的地类型转换、累加和原子存储器操作的指令
CN104011665B (zh) 超级乘加(超级madd)指令
CN110321159A (zh) 用于实现链式区块操作的系统和方法
CN104137061B (zh) 用于执行向量频率扩展指令的方法、处理器核和计算机系统
CN109313549A (zh) 用于向量的元素排序的装置、方法和系统
CN108292224A (zh) 用于聚合收集和跨步的系统、设备和方法
CN104204989B (zh) 用于选择向量计算的元素的装置和方法
CN104185837B (zh) 在不同的粒度等级下广播数据值的指令执行单元
CN104350461B (zh) 具有不同的读和写掩码的多元素指令
CN104335166A (zh) 用于执行混洗和操作(混洗-操作)的系统、装置和方法
CN107003846A (zh) 用于向量索引加载和存储的方法和装置
CN107077329A (zh) 用于通过无序硬件软件协同设计处理器中的栈同步指令来实现和维持判定值的栈的方法和设备
CN107111489A (zh) 莫顿坐标调整处理器、方法、系统和指令
CN108701028A (zh) 用于执行用于置换掩码的指令的系统和方法
CN108292227A (zh) 用于步进加载的系统、设备和方法
KR101624786B1 (ko) 기입마스크 레지스터의 트레일링 최하위 마스킹 비트를 결정하는 시스템, 장치, 및 방법
CN104081337A (zh) 用于响应于单个指令来执行横向部分求和的系统、装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant