CN108292269A

CN108292269A - 用于监视地址冲突的计数器

Info

Publication number: CN108292269A
Application number: CN201680069933.3A
Authority: CN
Inventors: E.奥尔德-艾哈迈德-瓦尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-12-30
Filing date: 2016-12-29
Publication date: 2018-07-17
Also published as: US20170192791A1; EP3398072A1; EP3398072A4; WO2017117392A1; TWI751125B; TW201732569A

Abstract

描述用于监视地址冲突的系统、方法和设备的实施例。在一些实施例中，设备包括用来执行指令的执行电路；用来存储耦合至执行电路的数据的多个寄存器；以及性能监视电路，其用来通过至少确定正执行的指令和先前执行的指令之间的地址冲突并对冲突的每个实例进行计数来执行地址冲突计数。

Description

用于监视地址冲突的计数器

技术领域

本发明的领域总体上涉及计算机处理器架构，并且更具体地涉及冲突检测。

背景技术

冲突检测指令实现针对循环的向量化，在这种情况下在编译时不能独立地确定在附近迭代中访问的地址。然而，冲突检测指令以及对应序列是昂贵的并且它们的使用是否会导致加速或减速取决于在一个向量值得的迭代内实际发生了多少次冲突。

附图说明

通过示例的方式来图示本发明并且不在附图的各图中限制本发明，在附图中相似的参考指示类似的元素并且在其中：

图1图示支持地址冲突计数的处理器（核）的一个实施例；

图2图示用于使用地址冲突计数器的地址冲突计数的方法的一个实施例；

图3图示用来使用配置指令配置地址冲突计数器的指令的执行的一个实施例；

图4图示地址比较硬件的一个实施例；

图5图示比较硬件的一个实施例；

图6图示用于跟踪一个向量迭代内的存储地址冲突的伪代码的一个示例；

图7是根据本发明的一个实施例的寄存器架构的框图；

图8A是图示根据本发明的实施例的示例性有序管线和示例性寄存器重命名无序发射/执行管线二者的框图；

图8B是图示根据本发明的实施例的要被包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名无序发射/执行架构核的框图；

图9A-B图示更具体的示例性有序核架构的框图，该核将是芯片中若干逻辑块（包括相同类型和/或不同类型的其他核）中的一个；

图10是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并且可具有集成图形的处理器的框图；

图11-14是示例性计算机架构的框图；以及

图15是根据本发明的实施例的对比软件指令转换器的使用以便将源指令集中的二进制指令转换为目标指令集中的二进制指令的框图。

具体实施方式

在下面的描述中，阐述许多具体细节。然而，要理解可以在没有这些具体细节的情况下实践本发明的实施例。在其他实例中，没有详细示出公知的电路、结构和技术以便不模糊对该描述的理解。

在说明书中对“一个实施例”、“实施例”、“示例实施例”等等的参考指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可能不一定都包括该特定特征、结构或特性。此外，此类短语不一定指代相同实施例。进一步地，当结合实施例来描述特定特征、结构或特性时，它被认为是在本领域技术人员所了解的范围内影响与其他实施例有关的此类特征、结构或特性，而不管是否明确地描述了此类特征、结构或特性。

为了对真实依赖性或者向量元素之间的冲突进行有益地向量化，冲突被有效地动态检测和强制执行。针对每个向量迭代（即每个VLEN标量迭代）的指令成本是冲突检测指令+（原始指令/通过SIMD效率）+冲突处理指令，在这种情况下中间项的分母是在没有冲突检测和强制执行的情况下计算的SIMD效率。

用来检测副本索引的一种直接方式是利用蛮力标量比较循环。对于每个索引，检查与向量中先前索引的相等性。用来进行该检测的另一方式是使用SIMD指令来执行所有需要的比较（例如vp冲突指令）。不幸地是，此类指令是非常昂贵的。

在存在冲突的情况下为了保证正确性，可以选取使用标量执行。对于向量化循环，在检测到给定向量中的冲突的情况下，可以进行后退到仅仅针对该向量、针对该向量和循环的所有未来迭代或者在之间的任何位置的标量执行。

因为在存在大量冲突的情况下标量后退对SIMD效率具有此类动态影响，所以可以仅在检测到足够副本的情况下选取使用标量执行。这将意味着检测不是唯一的足够的索引元素，或者向量中最常见的索引具有足够拷贝的足够的索引元素。

下面详细描述了用来使用性能计数器来跟踪许多地址冲突的实施例。该信息可以被用来帮助软件开发人员限制使用冲突检测指令的性能代价并且通过使用此类指令（包括使用标量执行而不是向量执行等等）来使性能加速最大化。可以依据微架构以及所需性能分析的类型以许多方式来实施（或配置）该计数器。例如，它可以被配置成对循环内的任何地方的所有地址冲突计数。备选地，它可以被用来对地址冲突的具体情形计数。例如，计数器可以被用来对冲突在n次迭代内出现的相同阵列内的不同位置的存储地址之间的情形计数。通常，n将对应于向量的大小：诸如当使用512位向量时对于64位数据类型的8次迭代或者对于32位数据类型的16次迭代。

图1图示支持地址冲突计数的处理器（核）的一个实施例。在该实施例中，核101包括用来分别执行标量和SIMD/向量指令的标量和单指令多数据（SIMD）电路113和115二者。

该执行电路113和115耦合至存储器单元107和寄存器109。该存储器单元107访问存储器位置（诸如随机访问存储器（RAM））和非易失性存储器（诸如盘）。寄存器109包括由标量执行电路113使用的通用寄存器和浮点寄存器以及由SIMD执行电路115使用的打包数据寄存器（诸如128位、256位、或512位打包数据寄存器）。

性能监视电路103（有时被称为“性能监视器”）监视核的功能，诸如执行周期、功率状态等等。性能监视电路103的实施例包括用来对指令分组中的指令之间的地址冲突的实例计数的地址冲突计数器105。例如，该地址冲突计数器105可配置成对循环内的地址冲突（包括将该计数限制成循环的许多迭代）、具体类型的地址冲突、许多指令的地址冲突、构成组的划界指令之间的地址冲突、这些中的任何的组合等等的实例计数。通常，该计数器105可由编程者（programmer）经由指令的应用接口（API）调用或执行来访问以便检索计数器值。在一些实施例中，该计数器105是寄存器。

该性能监视电路103包括用来存储先前执行的指令的地址的潜在冲突地址存储装置107或者访问该潜在冲突地址存储装置107。通常，仅存储唯一的地址。在一些实施例中，该存储装置是允许并行搜索所有条目以得到匹配的内容可寻址存储器（CAM）。在其他实施例中，该存储装置是地址阵列。在其他实施例中，该存储装置是一个或多个寄存器（诸如多个通用寄存器或打包数据寄存器，其中该打包数据寄存器的数据元素是地址）。

在一些实施例中，该性能监视电路103包括用来限定地址检查的参数的模型特定寄存器（MSR）111。通常，该寄存器是可经由高特权或环0应用访问的。

该性能监视电路包括用来对执行指令的地址和潜在冲突地址存储装置进行比较的比较电路117。

在一些实施例中，该性能监视电路包括用来跟踪在地址冲突计数期间指令分组的有限状态机（FSM）119。例如，该FSM跟踪被处理成要被比较的指令数目的许多指令，或跟踪对于期望冲突计数的循环的多次迭代、等等。

在一些实施例中，性能监视电路对通过起始指令和停止指令划界的指令分组执行地址冲突计数。在一些实施例中，该性能监视电路用来对通过起始指令和指示在起始指令之后要评估的许多指令的值划界的指令分组执行地址冲突计数。

图2图示用于使用地址冲突计数器的地址冲突计数的方法的一个实施例。在201处，由执行电路来执行第一指令。例如，执行促使写入/存储到一个或多个地址中的任何指令。该执行可以依据指令由标量或SIMD执行电路来完成。

在203处将来自第一指令的（一个或多个）地址存储在潜在冲突地址存储装置中。例如，如果第一指令是存储，则将目的地地址存储在潜在冲突地址存储装置（诸如存储装置107）中。

在205处，由指令电路来执行后续指令。例如，执行第二存储。

在207处进行后续指令的地址是否在潜在冲突地址存储装置中的确定。例如，如通过将该地址与先前存储在该存储位置中的那些地址进行比较而确定的先前已使用了该目的地地址吗当后续指令所使用的地址先前没有被使用时，则在209处将该地址存储在潜在冲突地址存储装置中，并且评估下一后续指令。

当后续指令所使用的地址先前被使用过时，在211处使地址冲突计数器增加，并且评估下一后续指令。

在该示例性实施例中没有示出，但在许多实施例中存在的是计数应该何时停止的确定。例如，在循环结束时或在循环的多次迭代之后。

计数器的输出也没有被示出，但是在许多使用模式中，编程者将调用在文件中或在屏幕上读出的计数器值以供查阅。计数器的值的读取可以被编程者或其他实体用来作出如上文所详述的向量化的决定。不同向量化情况需要不同的优化策略：1）如果已知在循环（对于64位数据的8次迭代或对于32位的16次迭代）的任何向量内都不存在冲突，则正常情况下在不使用冲突检测指令的情况下通过向量化来获得更好的性能；2）如果平均而言在一个向量迭代内存在大量冲突（实际阈值是依赖于微架构的），则最佳的方法通常是根本不向量化（不使用冲突检测指令来向量化）并且作为代替运行标量序列；以及3）如果一个向量迭代内冲突的数目小（比依赖于微架构的阈值小），则在使用冲突检测指令的情况下向量化常常产生7最佳性能。

图3图示用来使用配置指令配置地址冲突计数器的指令的执行的一个实施例。在301处，获取指令。依据该实施例，该指令包括操作码和用来指示循环开始、循环结束、冲突类型、迭代数目等等的一个或多个字段。

在303处，该指令被解码。

在305处，根据需要检索与该字段相关联的数据。例如，从寄存器或存储器检索数据。

在307处，执行解码指令以配置地址冲突计数器。在一些实施例中，模型特定寄存器被设置成指示性能监视电路内的配置。

图4图示地址比较硬件的一个实施例。将一组先前使用的地址401与要检查的地址407相比较。例如，将指令的地址与先前使用的地址进行比较。要测试的地址通常存储在如上面详述的性能监视电路的存储位置中或可由该性能监视电路访问。

比较硬件（电路）403执行该比较。在一些实施例中，该比较每次只做一次。在其他实施例中，并行完成该比较。

比较405的结果指示应该何时更新地址冲突计数器。根据需要将该结果馈送到地址冲突寄存器（诸如地址冲突计数器105）。在一些实施例中，仅将计数器的增量馈送到计数器。

图5图示比较硬件的一个实施例。该硬件503包括多个与门509。每个与门都被馈送先前使用的地址（501和505）和要测试的地址507。

或门511接收进行与操作的结果并且输出结果513。来自与门509的任何“1”都指示地址是先前使用的并且因此应该使计数器增加。

图6图示用于跟踪一个向量迭代内的存储地址冲突的伪代码的一个示例。下面的图详述用来实施上面的实施例的示例性架构和系统。在一些实施例中，如下面详述的那样仿真上述一个或多个硬件部件和/或指令，或者将上述一个或多个硬件部件和/或指令实施为软件模块。

示例性寄存器架构。

图7是根据本发明的一个实施例的寄存器架构700的框图。在图示的实施例中，存在32个向量寄存器710（它们是512位宽）；这些寄存器被引用为zmm0一直到zmm31。下面的16个zmm寄存器的低256位被覆盖在寄存器ymm0-16上。下面的16个zmm寄存器的低128位（ymm寄存器的低128位）被覆盖在寄存器xmm0-15上。

标量操作是在zmm/ymm/xmm寄存器中的最低位数据元素位置上执行的操作；高位数据元素位置或者保持相同（与指令之前的它们相同）或者被零化，这取决于实施例。

写屏蔽寄存器715—在所图示的实施例中，存在8个写屏蔽寄存器（k0一直到k7），每个的大小都是64位。在一个备选实施例中，该写屏蔽寄存器715的大小是16位。如先前所描述的，在本发明的一个实施例中，向量屏蔽寄存器k0不能被用作写屏蔽；当正常情况下指示k0的编码被用于写屏蔽时，它选择硬连线的写屏蔽0xFFFF，从而有效地禁用了对于该指令的写屏蔽。

通用寄存器725—在所图示的实施例中，存在十六个64位通用寄存器，其连同现有的x86寻址模式一起使用来对存储器操作数寻址。通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8一直到R15来引用这些寄存器。

标量浮点堆栈寄存器文件（x87堆栈）745（其的别名是MMX打包整数平坦寄存器文件750）—在所图示的实施例中，x87堆栈是用于使用x87指令集扩展对32/64/80位浮点数据执行标量浮点操作的8元素堆栈；而MMX寄存器被用来对64位打包整数数据执行操作，以及保持用于在MMX和XMM寄存器之间执行的一些操作的操作数。

本发明的备选实施例可以使用更宽或更窄的寄存器。另外，本发明的备选实施例可以使用更多、更少或不同的寄存器文件和寄存器。

示例性核架构、处理器和计算机架构。

可以为了不同目的并且在不同的处理器中以不同的方式来实施处理器核。例如，此类核的实施方式可以包括：1）预期用于通用计算的通用有序核；2）预期用于通用计算的高性能通用无序核；3）预期主要用于图形和/或科学（吞吐量）计算的专用核。不同处理器的实现可以包括：1)包括预期用于通用计算的一个或多个通用有序核以及/或者预期用于通用计算的一个或多个通用无序核的CPU；以及2）包括预期主要用于图形和/或科学（吞吐量）的一个或多个专用核的协处理器。此类不同处理器导致不同计算机系统架构，它们可以包括：1）与CPU分开的芯片上的协处理器；2）与CPU相同的封装中的单独管芯上的协处理器；3）与CPU相同管芯上的协处理器（在这种情况下，此类协处理器有时被称为专用逻辑（诸如集成图形和/或科学（吞吐量）逻辑）、或专用核）；4）在与所述CPU（有时被称为（一个或多个）应用核或（一个或多个）应用处理器）、上述协处理器和附加功能相同的管芯上包括的片上系统。接下来描述示例性核架构，之后描述示例性处理器和计算机架构。

示例性核架构。

有序和无序核框图。

图8A是图示根据本发明的实施例的示例性有序管线和示例性寄存器重命名无序发射/执行管线二者的框图。图8B是图示根据本发明的实施例的要被包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名无序发射/执行架构核的框图。图8A-B中的实线框图示有序管线和有序核，而虚线框的可选添加图示寄存器重命名无序发射/执行管线和核。在有序方面是无序方面的子集的情况下，将描述无序方面。

在图8A中，处理器管线800包括获取级802、长度解码级804、解码级806、分配级808、重命名级810、调度（也被称为分配或发射）级812、寄存器读取/存储器读取级814、执行级816、写回/存储器写级818、异常处理级822和提交级824。

图8B示出处理器核890，其包括耦合至执行引擎单元850的前端单元830，并且这二者都耦合至存储器单元870。该核890可以是精简指令集计算（RISC）核、复杂指令集计算（CISC）核、超长指令字（VLIW）核、或者混合或备选核类型。作为还有的另一选项，该核890可以是专用核，诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元（GPGPU）核、图形核等等。

该前端单元830包括耦合至指令高速缓存单元834的分支预测单元832，该指令高速缓存单元834耦合至指令转换旁视缓冲器（TLB）836，该指令转换旁视缓冲器（TLB）836耦合至指令获取单元838，该指令获取单元838耦合至解码单元840。该解码单元840（或解码器）可以解码指令，并且生成作为输出一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号（该控制信号是从原始指令解码的，或以其他方式反映原始指令，或是从该原始指令导出的）。可以使用各种不同的机构来实施解码单元840。适当机构的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等等。在一个实施例中，该核890包括微代码ROM或存储用于某些微指令（例如在解码单元840中或者否则在前端单元830内）的微代码的其他介质。该解码单元840耦合至执行引擎单元850中的重命名/分配器单元852。

该执行引擎单元850包括耦合至引退单元854和一组一个或多个调度器单元856的重命名/分配器单元852。该（一个或多个）调度器单元856表示任何数目的不同调度器，包括保留站、中央指令窗口等等。该（一个或多个）调度器单元856耦合至（一个或多个）物理寄存器文件单元858。该（一个或多个）物理寄存器文件单元858中的每一个都表示一个或多个物理寄存器文件，它们中的不同物理寄存器文件存储一种或多种不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态（例如作为要被执行的下一指令的地址的指令指针）等等。在一个实施例中，该（一个或多个）物理寄存器文件单元858包括向量寄存器单元、写屏蔽寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量屏蔽寄存器和通用寄存器。该（一个或多个）物理寄存器文件单元858被引退单元854覆盖以图示可以在其中实施寄存器重命名和无序执行的各种方式（例如使用（一个或多个）重排序缓冲器和（一个或多个）引退寄存器文件；使用（一个或多个）未来文件、（一个或多个）历史缓冲器、和（一个或多个）引退寄存器文件；使用寄存器映射和寄存器池；等等）。该引退单元854和（一个或多个）物理寄存器文件单元858耦合至（一个或多个）执行群集860。该（一个或多个）执行群集860包括一组一个或多个执行单元862和一组一个或多个存储器访问单元864。该执行单元862可以执行各种操作（例如位移、加法、减法、乘法）并且对各种类型的数据（例如标量浮点、打包整数、打包浮点、向量整数、向量浮点）执行各种操作。尽管一些实施例可以包括专用于具体功能或功能集的许多执行单元，但是其他实施例可以包括仅一个执行单元或所有都执行所有功能的多个执行单元。（一个或多个）调度器单元856、（一个或多个）物理寄存器文件单元858、和（一个或多个）执行群集860被示出为可能是复数的，因为某些实施例为某些类型的数据/操作创建单独的管线（例如标量整数管线、标量浮点/打包整数/打包浮点/向量整数/向量浮点管线、和/或存储器访问管线（每一个都具有它们自己的调度器单元、（一个或多个）物理寄存器文件单元、和/或执行群集），并且在单独存储器访问管线的情况下实施在其中仅该管线的执行群集具有（一个或多个）存储器访问单元864的某些实施例）。还应该理解，在使用单独管线的情况下，这些管线中的一个或多个可以是无序发射/执行和有序安置。

该组存储器访问单元864耦合至存储器单元870，该存储器单元870包括耦合至数据高速缓存单元874的数据TLB单元872，该数据高速缓存单元874耦合至2级（L2）高速缓存单元876。在一个示例性实施例中，该存储器访问单元864可以包括负载单元、存储地址单元、和存储数据单元，它们中的每一个都耦合至存储器单元870中的数据TLB单元872。指令高速缓存单元834进一步耦合至存储器单元870中的2级（L2）高速缓存单元876。该L2高速缓存单元876耦合至高速缓存的一个或多个其他级并且最终耦合至主存储器。

以示例的方式，示例性寄存器重命名无序发射/执行核架构可以如下实施管线800：1）指令获取838执行获取和长度解码级802和804；2）解码单元840执行解码级806；3）重命名/分配器单元852执行分配级808和重命名级810；4）（一个或多个）调度器单元856执行调度级812；5）（一个或多个）物理寄存器文件单元858和存储器单元870执行寄存器读取/存储器读取级814；执行群集860实行执行级816；6）存储器单元870和（一个或多个）物理寄存器文件单元858执行写回/存储器写级818；7）各种单元都可能参与到异常处理级822中；并且8）引退单元854和（一个或多个）物理寄存器文件单元858执行提交级824。

该核890可以支持一个或多个指令集（例如x86指令集（具有已经添加有更新的版本的一些扩展）；加利福尼亚州森尼维耳市的MIPS技术有限公司的MIPS指令集；加利福尼亚州森尼维耳市的ARM控股的ARM指令集（具有可选的附加扩展（诸如NEON）），其包括本文中描述的（一个或多个）指令）。在一个实施例中，该核890包括用来支持打包数据指令集扩展（例如AVX1、AVX2）的逻辑，由此允许使用打包数据来执行被许多多媒体应用使用的操作。

应该理解，该核可以支持多线程（执行操作或线程的两个或更多并行集），并且可能以各种各样的方式来这样做，包括时间切片多线程、同时多线程（在这种情况下单个物理核为物理核是同时多线程的线程中的每一个提供逻辑核）、或其组合（例如时间切片获取和解码以及此后的同时多线程，诸如在Intel®超线程技术中）。

尽管在无序执行的上下文中描述了寄存器重命名，但是应该理解寄存器重命名可以被用在有序架构中。尽管所图示的处理器的实施例还包括单独的指令和数据高速缓存单元834/874和共享的L2高速缓存单元876，但是备选实施例可以具有针对指令和数据二者的单个内部高速缓存，诸如例如第1级（L1）内部高速缓存、或多级内部高速缓存。在一些实施例中，该系统可以包括内部高速缓存以及核和/或处理器外部的外部高速缓存的组合。备选地，所有高速缓存可以是核和/或处理器外部的。

具体示例性有序核架构。

图9A-B图示更具体的示例性有序核架构的框图，该核将是芯片中若干逻辑块（包括相同类型和/或不同类型的其他核）中的一个。该逻辑块通过高带宽互连网络（例如环形网络）依据应用与某些固定功能逻辑、存储器I/O接口和其他必要的I/O逻辑通信。

图9A是根据本发明的实施例的单个处理器核连同其至管芯上互连网络902的连接和其的2级（L2）高速缓存904的本地子集的框图。在一个实施例中，指令解码器900支持具有打包数据指令集扩展的x86指令集。L1高速缓存906允许高速缓存存储器至标量和向量单元的低延迟访问。尽管在一个实施例中（为了简化设计），标量单元908和向量单元910使用单独的寄存器集（分别是标量寄存器912和向量寄存器914）并且它们之间传递的数据被写到存储器并且然后从一级（L1）高速缓存906读回，但是本发明的备选实施例可以使用不同的方法（例如使用单个寄存器集或在没有写回和读回的情况下包括允许数据在两个寄存器文件之间传递的通信路径）。

L2高速缓存904的本地子集是被分成单独的本地子集（每个处理器核一个）的全局L2高速缓存的一部分。每个处理器核都具有至L2高速缓存904的它自己的本地子集的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集904中并且可以与其他处理器核访问它们自己的本地L2高速缓存子集并行地快速访问。由处理器核写入的数据被存储在其自己的L2高速缓存子集904中并且从其他子集清除（如果需要的话）。该环形网络确保针对共享数据的一致性。该环形网络是双向的以允许代理（诸如处理器核、L2高速缓存和其他逻辑块）在芯片内彼此通信。每个环形数据路径都是每个方向1012位宽。

图9B是根据本发明的实施例的图9A中的处理器核的一部分的展开视图。图9B包括L1高速缓存904的L1数据高速缓存906A部分，以及关于向量单元910和向量寄存器914的更多细节。具体来说，该向量单元910是16宽向量处理单元（VPU）（参见16宽ALU 928），其执行整数、单精度浮点、和双精度浮点指令中的一个或多个。该VPU支持利用拌和单元920来拌和寄存器输入，与数字转换单元922A-B的数字转换，以及在存储器输入上利用复制单元924复制。写屏蔽寄存器926允许预测结果产生的向量写入。

图10是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并且可具有集成图形的处理器1000的框图。图10中的实线框图示具有单个核1002A、系统代理1010、一组一个或多个总线控制器单元1016的处理器1000，而虚线框的可选添加图示备选处理器1000，其具有多个核1002-N、系统代理单元1010中的一组一个或多个集成存储器控制器单元1014、以及专用逻辑1008。

因此，处理器1000的不同实现可以包括：1）CPU，其具有作为集成图形和/或科学（吞吐量）逻辑（其可以包括一个或多个核）的专用逻辑1008；以及作为一个或多个通用核（例如通用有序核、通用无序核、两个的组合）的核1002A-N；2）具有作为预期主要用于图形和/或科学（吞吐量）的大量专用核的核1002A-N的协处理器；和3）具有作为大量通用有序核的核1002A-N的协处理器。因此，该处理器1000可以是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量许多集成核（MIC）协处理器（包括30个或更多核）、嵌入式处理器、等等。可以在一个或多个芯片上实施该处理器。处理器1000可以是一个或多个衬底的一部分和/或使用许多处理技术（诸如例如BiCMOS、CMOS或NMOS）中的任意在一个或多个衬底上实施。

存储器分层结构包括核内高速缓存的一个或多个级、一组或者一个或多个共享高速缓存单元1006、和耦合至该组集成存储器控制器单元1014的外部存储器（没有被示出）。该组共享高速缓存单元1006可以包括一个或多个中级高速缓存（诸如2级（L2）、3级（L3）、4级（L4）、或其他级高速缓存）、最后级高速缓存（LLC）和/或其组合。尽管在一个实施例中，基于环形的互连单元1012互连集成图形逻辑1008、该组共享高速缓存单元1006和系统代理单元1010/（一个或多个）集成存储器控制器单元1014，但是备选实施例可以使用用于互连此类单元的任何数目的公知技术。在一个实施例中，在一个或多个高速缓存单元1006和核1002-A-N之间保持一致性。

在一些实施例中，该核1002A-N中的一个或多个是能够多线程的。该系统代理1010包括协调和操作核1002A-N的那些部件。该系统代理单元1010可以包括例如功率控制单元（PCU）和显示单元。该PCU可以是或包括用于调节核1002A-N的功率状态所需的逻辑和部件以及集成图形逻辑1008。该显示单元用于驱动一个或多个外部连接的显示器。

就架构指令集来说，该核1002a-N可以是同质的或异质的；也就是说该核1002A-N中的两个或更多可能能够执行相同的指令集，而其他可能能够仅执行该指令集的子集或不同的指令集。

示例性计算机架构。

图11-14是示例性计算机架构的框图。本领域中已知的针对膝上型计算机、桌上型计算机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络中心、交换机、嵌入式处理器、数字信号处理器（DSP）、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备、和各种其他电子设备的其他系统设计和配置也是适合的。一般来说，如在本文中公开的能够合并处理器和/或其他执行逻辑的大量各种各样的系统或电子设备通常是适合的。

现在参考图11，示出根据本发明的一个实施例的系统1100的框图。该系统1100可以包括一个或多个处理器1110、1115，它们耦合至控制器中心1120。在一个实施例中，该控制器中心1120包括图形存储器控制器中心（GMCH）1190和输入/输出中心（IOH）1150（其可以在单独的芯片上）；该GMCH 1190包括存储器1140和协处理器1145耦合至的存储器和图形控制器；该IOH 1150将输入/输出（I/O）设备1160耦合至GMCH 1190。备选地，存储器和图形控制器中的一个或二者集成在处理器（如本文中描述的）内，存储器1140和协处理器1145直接耦合至处理器1110，并且控制器中心1120与IOH 1150在单个芯片中。

在图11中利用虚线来表示附加处理器1115的可选性质。每个处理器1110、1115都可以包括本文中所述的处理核中的一个或多个并且可以是处理器1000的某版本。

存储器1140可以是例如动态随机访问存储器（DRAM）、相变存储器（PCM）、或两个的组合。对于至少一个实施例，控制器中心1120经由多点总线（诸如前侧总线（FSB））、点对点接口（诸如快速路径互连（OPI））或类似连接1195与（一个或多个）处理器1110、1115通信。

在一个实施例中，该协处理器1145是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中，控制器中心1120可以包括集成图形加速器。

就包括架构、微架构、热、功率消耗特性等等的优点的度量谱来说，在物理资源1110、1115之间可以存在各种各样的差别。

在一个实施例中，该处理器1110执行控制一般类型的数据处理操作的指令。嵌入在指令内的可以是协处理器执行。处理器1110将这些协处理器指令识别为应该由附接的协处理器1145执行的类型。因此，该处理器1110在协处理器总线或其他互连上向协处理器1145发射这些协处理器指令（或表示协处理器指令的控制信号）。（一个或多个）协处理器1145接受并执行接收到的协处理器指令。

现在参考图12，示出根据本发明的实施例的第一更具体的示例性系统1200的框图。如在图12中示出的，多处理器系统1200是点对点互连系统，并且包括经由点对点互连1250耦合的第一处理器1270和第二处理器1280。处理器1270和1280中的每一个都可以是处理器1000的某版本。在本发明的一个实施例中，处理器1270和1280分别是处理器1110和1115，而协处理器1238是协处理器1145。在另一实施例中，处理器1270和1280分别是处理器1110和协处理器1145。

处理器1270和1280被示出分别包括集成存储器控制器（IMC）单元1272和1282。处理器1270还包括作为其总线控制器单元的一部分的点对点（P-P）接口1276和1278；类似地，第二处理器1280包括P-P接口1286和1288。处理器1270、1280可以使用P-P接口电路1278、1288经由点对点（P-P）接口1250交换信息。如在图12中示出的，IMC 1272和1282将处理器耦合至相应的存储器（即存储器1232和存储器1234），它们可以是本地附接至相应处理器的主存储器的部分。

处理器1270、1280中的每一个都可使用点对点接口电路1276、1294、1286、1298经由单独的P-P接口1252、1254与芯片组1290交换信息。芯片组1290可以可选地经由高性能接口1239与协处理器1238交换信息。在一个实施例中，该协处理器1238是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。

共享高速缓存（没有被示出）可以被包括在任一处理器中或两个处理器之外，还经由P-P互连与处理器连接，以使得如果将处理器置于低功率模式则处理器中的任一个或二者的本地高速缓存信息可以被存储在共享高速缓存中。

芯片组1290可以经由接口1296耦合至第一总线1216。在一个实施例中，第一总线1216可以是外围部件互连（PCI）总线，或诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但本发明的范围不限于此。

如在图12中示出的，各种I/O设备1214可以连同将第一总线1216耦合至第二总线1220的总线桥1218一起耦合至第一总线1216。在一个实施例中，将一个或多个附加处理器1215（诸如协处理器、高吞吐量MIC处理器、GPGPU、加速度计（诸如例如图形加速度计或数字信号处理（DSP）单元））、现场可编程门阵列或任何其他处理器耦合至第一总线1216。在一个实施例中，第二总线1220可以是低引脚计数（LPC）总线。可以将各种设备耦合至第二总线1220，在一个实施例中该各种设备包括例如键盘和/或鼠标1222、通信设备1227和存储单元1228（诸如硬盘驱动器或其他大容量存储设备（其可以包括指令/代码和数据1230））。进一步地，可以将音频I/O 1224耦合至第二总线1220。要指出，其他架构是可能的。例如，作为对图12的点对点架构的代替，系统可以实施多点总线或其他此类架构。

现在参考图13，示出的是根据本发明的一个实施例的第二更具体示例性系统1300的框图。图12和13中的相似元件承载相似的参考数字，并且为了避免使图13的其他方面模糊，已经从图13省略图12的某些方面。

图13图示处理器1270、1280可以分别包括集成存储器和I/O控制逻辑（“CL”）1272和1282。因此，CL 1272、 1282都包括集成存储器控制器单元并且包括I/O控制逻辑。图13图示不仅存储器1232、1234耦合至CL 1272、1282，而且I/O设备1314也耦合至控制逻辑1272、1282。遗留I/O设备1315耦合至芯片组1290。

现在参考图14，示出根据本发明的一个实施例的SoC 1400的框图。图10中的类似元件承载相似的参考数字。而且，虚线框是关于更高级SoC的可选特征。在图14中，（一个或多个）互连单元1402耦合至：应用处理器1410（其包括一组一个或多个核202A-N以及（一个或多个）共享高速缓存单元1006）；系统代理单元1010；（一个或多个）总线控制器单元1016；（一个或多个）集成存储器控制单元1014；一组一个或多个协处理器1420（其可以包括集成图形逻辑、图像处理器、音频处理器、和视频处理器）；静态随机访问存储器（SRAM）单元1430；直接存储器访问（DMA）单元1432；和用于耦合至一个或多个外部显示器的显示单元1440。在一个实施例中，（一个或多个）协处理器1420包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。

可以以此类实现方法的硬件、软件、固件或组合来实施本文中公开的机制的实施例。本发明的实施例可以被实施为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备和至少一个输出设备。

可以将程序代码（诸如图12中图示的代码1230）应用于输入指令来执行本文中描述的功能并生成输出信息。可以以已知的方式将该输出信息应用于一个或多个输出设备。为了该申请的目的，处理系统包括具有处理器的任何系统，该处理器诸如例如数字信号处理器（DSP）、微控制器和专用集成电路（ASIC）或微处理器。

可以以高级程序或面向对象的编程语言来实施程序代码以便与处理系统通信。还可以以汇编或机器语言来实施该程序代码（如果期望的话）。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一种情况下，该语言可以是编译或解释语言。

可以通过存储在机器可读介质上的代表性指令来实施至少一个实施例的一个或多个方面，该机器可读介质表示处理器内的各种逻辑，当该逻辑被机器读取时促使机器制造逻辑来执行本文中描述技术。此类表示（被称为“IP核”）可以被存储在有形、机器可读介质上并且供应给各种客户或制造设施以便加载到实际上制成逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括（不限于）由机器或设备制造或形成的物品的非瞬时有形布置，包括存储介质（诸如硬盘、任何其他类型的盘（包括软盘、光盘、压缩盘只读存储器（CD-ROM）、压缩盘可再写（CD-RW）、和磁光盘））、半导体器件（诸如只读存储器（ROM）、随机访问存储器(ROM)(诸如动态随机访问存储器（DRAM）、静态随机访问存储器（SRAM）、可擦除可编程只读存储器（EPROM）、闪速存储器、电可擦除可编程只读存储器（EEPROM）、相变存储器（PCM）)、磁卡或光卡、或适用于存储电子指令的任何其他类型的介质。

相应地，本发明的实施例还包括非瞬时有形机器可读介质，其包含指令或包含设计数据，诸如限定本文中描述的结构、电路、设备、处理器和/或系统特征的硬件描述语言（HDL）。此类实施例还可以被称为程序产品。

仿真（包括二进制变换、代码变形等等）。

在某些情况下，指令转换器可以被用来将指令从源指令集转换成目标指令集。例如，该指令转换器可以将指令变换（例如使用静态二进制变换、包括动态汇编的动态二进制变换）、变形、仿真或以其他方式转换成要由核处理的一个或多个其他指令。该指令转换器可以以软件、硬件、固件或其组合来实施。该指令转换器可以在处理器上、处理器外或者部分在处理器上部分在处理器外。

图15是根据本发明的实施例的对比软件指令转换器的使用以便将源指令集中的二进制指令转换为目标指令集中的二进制指令的框图。在所图示的实施例中，该指令转换器是软件指令转换器，但备选地可以以软件、固件、硬件或其各种组合来实施指令转换器。图15示出可以使用x86编译器1504编译处于高级语言1502的程序，以生成可由具有至少一个x86指令集核1516的处理器本机执行的x86二进制代码1506。具有至少一个x86指令集核1516的处理器表示可以通过兼容执行或以其他方式处理（1）英特尔x86指令集核的指令集的很大一部分或（2）目标在于在具有至少一个x86指令集核的英特尔处理器上运行的应用或其他软件的目标代码版本来执行基本上与具有至少一个x86指令集核的英特尔处理器相同的功能的任何处理器，以便基本上实现与具有至少一个x86指令集核的英特尔处理器相同的结果。X86编译器1504表示可操作用来生成x86二进制代码1506（例如目标代码）的编译器，在具有或不具有附加链接处理的情况下，可以在具有至少一个x86指令集核1516的处理器上执行该x86二进制代码1506。类似地，图15示出可以使用备选指令集编译器1508编译以生成备选指令集二进制代码1510的处于高级语言1502的程序，可以由不具有至少一个x86指令集核1514的处理器（例如具有执行加利福尼亚州森尼维耳市的MIPS技术有限公司的MIPS指令集和/或执行加利福尼亚州森尼维耳市的ARM控股的ARM指令集的核的处理器）来本机执行该备选指令集二进制代码1510。该指令转换器1512被用来将x86二进制代码1506转换成可由不具有x86指令集核1514的处理器本机执行的代码。该经过转换的代码不大可能与备选指令集二进制代码1510相同，因为难以制造能够这样做的指令转换器；然而，经过转换的代码将完成一般操作并且由来自备选指令集的指令构成。因此，该指令转换器1512表示软件、固件、硬件或其组合，其通过仿真、模拟或任何其他过程来允许处理器或不具有x86指令集处理器或核的其他电子设备执行x86二进制代码1506。

Claims

1.一种设备，包括：

用来执行指令的执行装置；

用来存储耦合至指令装置的数据的多个寄存器；以及

性能监视装置，其用来通过至少确定正执行的指令和先前执行的指令之间的地址冲突并对冲突的每个实例进行计数来执行地址冲突计数。

2.根据权利要求1所述的设备，其中该性能监视装置包括：

地址冲突计数器，其用来存储冲突的每个实例的计数；以及

潜在冲突地址存储装置，其用来存储先前执行的指令的地址；以及

比较装置，其用来作出执行指令的地址与存储在潜在冲突地址存储装置中的地址的比较。

3.根据权利要求2所述的设备，其中该性能监视装置进一步包括：

用来为地址冲突计数配置性能监视装置的模型特定寄存器。

4.根据权利要求2所述的设备，其中该性能监视装置进一步包括：

用来在地址冲突计数期间跟踪指令分组的有限状态机。

5.根据权利要求1-4中的任一项所述的设备，其中该地址是写地址。

6.根据权利要求1-5中的任一项所述的设备，其中该执行装置是标量的。

7.根据权利要求1-5中的任一项所述的设备，其中该执行装置是单指令多数据（SIMD）。

8.根据权利要求1-7中的任一项所述的设备，其中该性能监视装置用来在循环的单个迭代上执行地址冲突计数。

9.根据权利要求1-7中的任一项所述的设备，其中该性能监视装置用来在循环的多个迭代上执行地址冲突计数。

10.根据权利要求1-7中的任一项所述的设备，其中该性能监视装置用来在通过起始和停止指令划界的指令分组上执行地址冲突计数。

11.根据权利要求1-7中的任一项所述的设备，其中该性能监视装置用来在通过起始指令和指示在起始指令之后要评估的许多指令的值划界的指令分组上执行地址冲突计数。

12.一种方法，包括：

执行第一指令；

将第一指令的地址存储在存储先前执行的指令的地址的潜在地址冲突存储装置中；

执行第二指令；

确定第二指令的地址与潜在地址冲突存储装置中的地址相匹配；以及

使地址冲突计数器增加。

13.根据权利要求13所述的方法，其中存储在潜在地址冲突存储装置中的地址是唯一的。

14.根据权利要求12-13中的任一项所述的方法，进一步包括：

输出地址冲突计数器的值。

15.根据权利要求12-14中的任一项所述的方法，其中该潜在地址冲突存储装置是列表。

16.根据权利要求12-14中的任一项所述的方法，其中该潜在地址冲突存储装置是内容可寻址存储器。

17.根据权利要求12-16中的任一项所述的方法，其中该地址是写地址。

18.根据权利要求12-17中的任一项所述的方法，其中在处理器的性能监视电路中执行该方法。

19.根据权利要求12-18中的任一项所述的方法，其中通过对第二指令的地址和潜在地址冲突存储装置的每个地址进行与操作以及对与操作的结果进行或操作来作出确定。