CN115857649A

CN115857649A - 针对主机系统选择电源

Info

Publication number: CN115857649A
Application number: CN202211167014.3A
Authority: CN
Inventors: 阿鲁尼·P·尼尔森; 乌达亚·纳塔拉詹; 坎纳潘·拉贾拉曼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-09-23
Filing date: 2022-09-23
Publication date: 2023-03-28
Also published as: DE102022121048A1; US20230111694A1

Abstract

在一实施例中，用于选择电源的主机系统包括处理器、用于连接到外围设备的总线接口、以及功率控制器。该功率控制器可以用于：确定所述处理器是否已进入了降低功率模式；经由一个或多个总线消息，确定是否将要对所述外围设备的电池执行充电；以及响应于确定所述处理器已进入了所述降低功率模式并且将不对所述外围设备的电池执行充电，从第一电源切换到第二电源来作为所述主机系统的活跃电源。描述和要求保护了其他实施例。

Description

针对主机系统选择电源

技术领域

实施例总体上涉及计算机系统。更特别地，实施例涉及在计算机系统中选择电源。

背景技术

一些计算系统包括与外部设备的接口。例如，一些计算系统可包括使用通用串行总线(Universal Serial Bus，USB)标准的接口，以用于与外围设备进行数据通信。在一些示例中，计算系统可包括用于向内部和外部设备提供电力的电源设备。

附图说明

图1是根据本发明的实施例的系统的一部分的框图。

图2是根据本发明的实施例的处理器的框图。

图3是根据本发明的另一实施例的多域处理器的框图。

图4是包括多个核的处理器的实施例。

图5是根据本发明的一个实施例的处理器核的微架构的框图。

图6是根据另一实施例的处理器核的微架构的框图。

图7是根据又一实施例的处理器核的微架构的框图。

图8是根据再一实施例的处理器核的微架构的框图。

图9是根据本发明的另一实施例的处理器的框图。

图10是根据本发明的实施例的代表性SoC的框图。

图11是根据本发明的实施例的另一示例SoC的框图。

图12是可与实施例一起使用的示例系统的框图。

图13是可与实施例一起使用的另一示例系统的框图。

图14是代表性计算机系统的框图。

图15A至图15B是根据本发明的实施例的系统的框图。

图16是图示了根据实施例的IP核开发系统的框图，该IP核开发系统用于制造用于执行操作的集成电路。

图17A至图17B是图示了根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。

图18A至图18D是图示了根据本发明的实施例的示例性特定向量友好指令格式的框图。

图19是根据本发明的一个实施例的寄存器架构的框图。

图20A是图示出根据本发明的实施例的示例性有序管线以及示例性寄存器重命名、乱序发出/执行管线两者的框图。

图20B是图示了根据本发明的实施例的待被包括在处理器中的有序架构核的示例性实施例以及示例性寄存器重命名、乱序发出/执行架构核两者的框图。

图21A至图21B图示了更具体的示例性有序核架构的框图，该核将作为芯片中的若干个逻辑块(包括相同类型和/或不同类型的其他核)之一。

图22是根据本发明的实施例的处理器的框图，该处理器可具有多于一个核、可具有集成的存储器控制器并且可具有集成的图形。

图23至图24是示例性计算机架构的框图。

图25是根据本发明的实施例对比了使用软件指令转换器来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

图26是根据一个或多个实施例的示例系统的框图。

图27A至图27B是根据一个或多个实施例的示例操作的图示。

图28是根据一个或多个实施例的用于选择电源的示例方法的流程图。

图29是根据一个或多个实施例的用于选择电源的示例方法的流程图。

图30是根据一个或多个实施例的用于选择电源的示例方法的流程图。

图31是根据一个或多个实施例的用于选择电源的示例方法的流程图。

图32是根据一个或多个实施例的用于选择电源的示例方法的流程图。

图33是根据一个或多个实施例的示例存储介质的图示。

具体实施方式

在一些实施例中，主机系统的处理器可以进入降低功率状态(例如，在一段没有用户活动的时间段之后)，以降低功耗。此外，处理器进入降低功率状态可使得主机从正常电源切换到待机电源。如本文所使用的，“待机电源”是指系统中专门用于在低功率需求条件期间使用的电力供应设备。此外，“正常电源”是指可以在正常活跃操作下为系统供电的电源。例如，与正常电源相比，待机电源可以提供更少量的电力，但在提供更少量的电力的同时，可比正常电源更有效率。

一些主机可包括总线接口，该总线接口可以从内部电源向一个或多个外围设备提供电力。例如，用户可以将蜂窝电话连接到膝上型计算机的通用串行总线C型(USB-C)端口，并且该USB-C连接可以提供电力来对蜂窝电话的电池进行充电。然而，在主机切换到待机电源的情况下，提供到总线接口的电力可能会降低。因此，所连接的设备可能不再能够经由接口接收到足够的电力来继续对其电池进行充电。因此，切换主机中的电源可能会对外围设备造成负面和/或不理想的结果。

根据一个或多个实施例，主机系统的功率控制器可以检测到处理器进入了降低功率状态。主机功率控制器可以使用一个或多个总线消息，来确定连接到主机的总线接口的外围设备的功率状态。基于这些消息，主机功率控制器可以确定是执行从正常电源到待机电源的切换，还是继续使用正常电源。例如，主机功率控制器可以确定外围设备的电池当前正在被充电，因此不能切换到待机电源。以这种方式，当切换到待机电源不会导致对外围设备的负面影响(例如，失去对电池的充电电力)时，就可以执行到待机电源的切换。因此，一些实施例可以提供总线接口的改善的性能。在下文参考图26至图33来进一步描述一些实施例的各种细节。此外，下文参考图1至图25来描述示例性系统和架构。

示例性系统和架构

虽然参考特定实现方式描述了以下实施例，但实施例在这个方面不受限制。特别是，预期本文描述的实施例的类似技术和教导可被应用到其他类型的电路、半导体器件、处理器、系统等。例如，公开的实施例可被实现在任何类型的计算机系统中，包括服务器计算机(例如，塔式、机架式、刀片式、微服务器等)、通信系统、存储系统、任何配置的桌面型计算机、膝上型计算机、笔记本计算机、以及平板计算机(包括2:1平板、平板手机等)。

此外，公开的实施例还可被用在其他设备中，例如，手持设备、片上系统(systemson chip，SoC)、以及嵌入式应用。手持设备的一些示例包括诸如智能电话之类的蜂窝电话、互联网协议设备、数码相机、个人数字助理(personal digital assistant，PDA)、以及手持PC。嵌入式应用通常可包括微控制器、数字信号处理器(digital signal processor，DSP)、网络计算机(NetPC)、机顶盒、网络集线器、广域网(wide area network，WAN)交换机、可穿戴设备、或者能够执行下文教导的功能和操作的任何其他系统。此外，实施例可被实现在具有标准语音功能的移动终端中，例如，移动电话、智能电话和平板手机，和/或被实现在不具有标准无线语音功能通信能力的非移动终端中，例如，许多可穿戴设备、平板设备、笔记本计算机、桌面型计算机、微服务器、服务器等。

现在参考图1，示出的是根据本发明的实施例的系统的一部分的框图。如图1所示，系统100可包括包含处理器110的各种组件，该处理器110如图所示是多核处理器。处理器110可经由外部电压调节器160耦合到电源150，该外部电压调节器160可执行第一电压转换，以向处理器110提供主调节电压Vreg。

可以看出，处理器110可以是包括多个核120a–120n的单管芯处理器。此外，每个核可与集成电压调节器(integrated voltage regulator，IVR)125a–125n相关联，该IVR接收主调节电压并且生成待被提供到处理器的与该IVR相关联的一个或多个代理的操作电压。因此，可以提供IVR实现方式以允许对电压进行细粒度控制，并从而允许对每个单独核的功率和性能进行细粒度控制。这样，每个核可以以独立的电压和频率进行操作，这实现了很大的灵活性并且提供了很宽的机会来平衡功耗与性能。在一些实施例中，对多个IVR的使用使得能够将组件分组到分离的电力平面中，使得电力被IVR调节并仅供应到该组中的那些组件。在功率管理期间，在处理器被置于某个低功率状态下时，一个IVR的给定电力平面可被掉电或断电，而另一IVR的另一电力平面保持活跃或者被完全供电。类似地，核120可包括独立的时钟生成电路(例如，一个或多个锁相环(phase lock loop，PLL))或者与独立的时钟生成电路相关联，以独立地控制每个核120的操作频率。

仍参考图1，额外的组件可存在于处理器内，包括输入/输出接口(interface，IF)132、另一接口134、以及集成存储器控制器(integrated memory controller，IMC)136。可以看出，这些组件中的每一者可由另外的集成电压调节器125_x来供电。在一个实施例中，接口132可实现针对

快速路径互连(Quick Path Interconnect，QPI)互连结构的操作，该互连结构提供包括多个层的缓存一致性协议中的点到点(point-to-point，PtP)链路，该多个层包括物理层、链路层和协议层。转而，接口134可经由外围组件互连快速(PeripheralComponent Interconnect Express，PCIe^TM)协议来通信。

还示出了功率控制单元(power control unit，PCU)138，该PCU 138可包括以下电路：该电路包括用于执行关于处理器110的功率管理操作的硬件、软件和/或固件。可以看出，PCU 138经由数字接口C向外部电压调节器160提供控制信息，以使得电压调节器生成适当的调节电压。PCU 138还经由另一数字接口C向IVR 125提供控制信息，以控制生成的操作电压(或者使得相应的IVR在低功率模式下被禁用)。在各种实施例中，PCU 138可包括各种功率管理逻辑单元来执行基于硬件的功率管理。这种功率管理可以是完全受处理器控制的(例如，由各种处理器硬件控制，并且可以由工作负载和/或功率约束、热约束或其他处理器约束来触发)，和/或功率管理可响应于外部源(例如，平台或功率管理源或系统软件)而被执行。

在图1中，PCU 138被示出为作为处理器的单独逻辑而存在。在其他情况下，PCU138可在核120中给定的一个或多个核上执行。在一些情况下，PCU 138可被实现为被配置为执行其自己的专用功率管理代码(有时称为P代码)的(专用或通用)微控制器或者其他控制逻辑。在另外的其他实施例中，PCU 138待执行的功率管理操作可在处理器外部实现，例如，借由单独的功率管理集成电路(power management integrated circuit，PMIC)或者处理器外部的另一组件来实现。在另外的其他实施例中，PCU 138待执行的功率管理操作可在BIOS或其他系统软件内实现。

实施例可特别适合于多核处理器，在多核处理器中，多个核中的每一者可在独立的电压和频率点进行操作。如本文所使用的，术语“域”用于意指在相同的电压和频率点操作的硬件和/或逻辑的集合。此外，多核处理器还可包括其他非核处理引擎，例如，固定功能单元、图形引擎等。这种处理器可包括除了核以外的独立域，例如，与图形引擎相关联的一个或多个域(本文中称为图形域)、以及与非核电路相关联的一个或多个域(本文中称为系统代理)。虽然多域处理器的许多实现方式可被形成在单个半导体管芯上，但其他实现方式可由多芯片封装实现，在该多芯片封装中，不同的域可存在于单个封装的不同半导体管芯上。

虽然为了图示的方便而没有示出，但应理解在处理器110内可存在额外的组件，例如，非核逻辑、以及诸如内部存储器之类的其他组件，例如，缓存存储器层次体系的一个或多个级别等。此外，虽然在图1的实现方式中是用集成电压调节器来示出的，但实施例不限于此。例如，可从外部电压调节器160或者调节电压的一个或多个额外的外部源向片上资源提供其他调节电压。

应注意，本文描述的功率管理技术可独立于基于操作系统(operating system，OS)的功率管理(operating system-based power management，OSPM)机制并且与其互补。根据一个示例OSPM技术，处理器可以以各种性能状态或水平——所谓的P状态——进行操作，即从P0至PN。总体上，P1性能状态可对应于OS可以请求的最高保证性能状态。除了这个P1状态以外，OS还可请求更高的性能状态，即P0状态。这个P0状态因而可以是机会模式、超频模式、或高速(turbo)模式状态，在这些模式状态下，当功率和/或热预算可用时，处理器硬件可将处理器或者其至少一些部分配置为以高于保证频率的频率进行操作。在许多实现方式中，处理器可包括在P1保证最大频率之上、直到超出到特定处理器最大峰值频率的多个所谓的分段频率(bin frequency)，这些分段频率在制造期间被烧熔或以其他方式写入到处理器中。此外，根据一个OSPM机制，处理器可以以各种功率状态或水平进行操作。关于功率状态，OSPM机制可以指定不同的功耗状态，通常称为C状态：C0、C1至Cn状态。当核活跃时，该核以C0状态来运行；当核空闲时，其可被置于核低功率状态，也被称为核非零C状态(例如，C1-C6状态)，其中每个C状态均处于更低的功耗水平(因此，C6是比C1更深度的低功率状态等依此类推)。

应理解，许多不同类型的功率管理技术在不同的实施例中可被单独或组合使用。作为代表性示例，功率控制器可控制处理器按某种形式的动态电压频率缩放(dynamicvoltage frequency scaling，DVFS)来被功率管理，在该动态电压频率缩放中，一个或多个核或其他处理器逻辑的操作电压和/或操作频率可被动态地控制以在某些情形中降低功耗。在一个示例中，可利用可从加州圣克拉拉的英特尔公司获得的增强型英特尔SpeedStep^TM技术来执行DVFS，来以最低的功耗水平提供最优的性能。在另一示例中，可利用英特尔TurboBoost^TM技术来执行DVFS，以使得一个或多个核或其他计算引擎能够基于状况(例如，工作负载和可用性)而以高于保证操作频率的频率进行操作。

在某些示例中可使用的另一种功率管理技术是工作负载在不同计算引擎之间的动态调换。例如，处理器可包括以不同的功耗水平操作的非对称核或其他处理引擎，使得在功率受约束的情形中，一个或多个工作负载可被动态切换为在更低功率的核或其他计算引擎上执行。另一种示例性功率管理技术是硬件工作周期循环(hardware duty cycling，HDC)，其可使得核和/或其他计算引擎根据工作周期被周期性地启用和禁用，从而使得一个或多个核可在工作周期的非活跃时间段期间被设为不活跃并且在工作周期的活跃时间段期间被设为活跃。

当在操作环境中存在约束时也可使用功率管理技术。例如，当遇到功率约束和/或热约束时，可通过降低操作频率和/或电压来降低功率。其他功率管理技术包括扼制指令执行速率或者限制指令的调度。此外，给定的指令集架构的指令有可能包括关于功率管理操作的明确或隐含指引。虽然是利用这些特定示例来进行描述的，但应理解在特定实施例中可使用许多其他功率管理技术。

实施例可被实现在针对各种市场的处理器中，包括服务器处理器、桌面处理器、移动处理器等。现在参考图2，示出的是根据本发明的实施例的处理器的框图。如图2中所示，处理器200可以是包括多个核210_a–210_n的多核处理器。在一个实施例中，每个这种核可以属于独立的电力域，并且可被配置为基于工作负载而进入和退出活跃状态和/或最大性能状态。一个或多个核210可与其他核是异构的，例如，具有不同的微架构、指令集架构、管线深度、功率和性能能力。各种核可经由互连结构215耦合到包括各种组件的系统代理220。可以看出，系统代理220可包括共享缓存230，该共享缓存230可以是最后一级缓存。此外，系统代理可包括集成存储器控制器240，以用于例如经由存储器总线与系统存储器(图2中未示出)通信。系统代理220还包括各种接口250和功率控制单元255，功率控制单元255可包括用于执行本文描述的功率管理技术的逻辑。

此外，通过接口250a-250n，可进行到各种芯片外组件的连接，例如，外围设备、大容量存储装置等。虽然在图2的实施例中是利用这个特定实现方式示出的，但本发明的范围在这个方面不受限制。

现在参考图3，示出的是根据本发明的另一实施例的多域处理器的框图。如图3的实施例中所示，处理器300包括多个域。具体而言，核域310可包括多个核310a–310n，图形域320可包括一个或多个图形引擎，并且还可存在系统代理域350。在一些实施例中，系统代理域350可以以独立于核域的频率来执行并且可在所有时间保持通电以处理功率控制事件和功率管理，使得域310和320可被控制为动态地进入和退出高功率和低功率状态。域310和320中的每一者可以以不同的电压和/或功率进行操作。应注意，虽然仅示出了三个域，但应理解本发明的范围在这个方面不受限制，在其他实施例中可存在额外的域。例如，可存在多个核域，每个核域包括至少一个核。

通常，核310a-310n中的每一者除了各种执行单元和额外的处理元件以外还可包括低级别缓存。转而，各种核可耦合到彼此并且耦合到由最后一级缓存(last levelcache，LLC)340a–340n的多个单元形成的共享缓存存储器。在各种实施例中，LLC 340可在核和图形引擎以及各种媒体处理电路之间被共享。可以看出，环状互连结构330从而将核耦合在一起，并且在核、图形域320和系统代理域350之间提供互连。在一个实施例中，互连结构330可以是核域的一部分。然而，在其他实施例中，环状互连结构可以属于其自己的域。

还可以看出，系统代理域350可包括显示控制器352，该显示控制器352可提供对关联的显示器的控制和到关联的显示器的接口。还可以看出，系统代理域350可包括功率控制单元355，该功率控制单元355可包括用于执行本文描述的功率管理技术的逻辑。

从图3中还可看出，处理器300还可包括集成存储器控制器(integrated memorycontroller，IMC)370，该IMC 370可提供到诸如动态随机存取存储器(dynamic randomaccess memory，DRAM)之类的系统存储器的接口。可存在多个接口380a–380n来实现处理器和其他电路之间的互连。例如，在一个实施例中，可提供至少一个直接媒体接口(directmedia interface，DMI)接口、以及一个或多个PCIe^TM接口。此外，为了提供诸如额外的处理器或者其他电路之类的其他代理之间的通信，还可提供一个或多个QPI接口。虽然在图3的实施例中是在这个高级别示出的，但应理解本发明的范围在这个方面不受限制。

参考图4，图示了包括多个核的处理器的实施例。处理器400包括任何处理器或处理设备，例如，微处理器、嵌入式处理器、数字信号处理器(digital signal processor，DSP)、网络处理器、手持处理器、应用处理器、协处理器、片上系统(system on a chip，SoC)、或者用于执行代码的其他设备。在一个实施例中，处理器400包括至少两个核——核401和402，它们可包括非对称核或者对称核(图示的实施例)。然而，处理器400可包括任意数目的可以是对称或非对称的处理元件。

在一个实施例中，处理元件指的是用于支持软件线程的硬件或逻辑。硬件处理元件的示例包括：线程单元、线程槽、线程、处理单元、上下文、上下文单元、逻辑处理器、硬件线程、核、和/或能够为处理器保持状态(例如，执行状态或架构状态)的任何其他元件。换言之，在一个实施例中，处理元件指的是能够独立地与诸如软件线程、操作系统、应用或其他代码之类的代码相关联的任何硬件。实体处理器通常指的是一种集成电路，该集成电路可包括任意数目的其他处理元件，例如，核或硬件线程。

核常指能够维持独立架构状态的、位于集成电路上的逻辑，其中每个被独立维持的架构状态与至少一些专用执行资源相关联。与核形成对比的是，硬件线程通常指能够维持独立架构状态的、位于集成电路上的任何逻辑，其中被独立维持的架构状态共享对执行资源的访问。可以看出，当某些资源被共享并且其他资源被专用于架构状态时，硬件线程和核的命名法之间的界线会重叠。然而经常，核和硬件线程被操作系统视为单独的逻辑处理器，在这些逻辑处理器处，操作系统能够单独调度每个逻辑处理器上的操作。

如图4所示，实体处理器400包括两个核，即核401和402。这里，核401和402被认为是对称核，即，具有相同的配置、功能单元和/或逻辑的核。在另一实施例中，核401包括乱序处理器核，而核402包括有序处理器核。然而，核401和402可以是单独地从任何类型的核中选择的，例如，原生核、受软件管理的核、被适配为执行原生指令集架构(instruction setarchitecture，ISA)的核、被适配为执行经转译的ISA的核、共同设计的核、或者其他已知的核。再进一步讨论，下文更详细描述在核401中图示的功能单元，因为核心核402中的单元以类似的方式进行操作。

如图所描绘的，核401包括两个架构状态寄存器401a和401b，它们可与两个硬件线程(也称为硬件线程槽)相关联。因此，在一个实施例中，软件实体(例如操作系统)可能将处理器400视为四个分离的处理器，即，能够同时执行四个软件线程的四个逻辑处理器或处理元件。如上文提到的，第一线程与架构状态寄存器401a相关联，第二线程与架构状态寄存器401b相关联，第三线程可以与架构状态寄存器402a相关联，第四线程可以与架构状态寄存器402b相关联。这里，架构状态寄存器(401a、401b、402a和402b)可与如上所述的处理元件、线程槽或者线程单元相关联。如图所示，架构状态寄存器401a被复制在架构状态寄存器401b中，因此能够针对逻辑处理器401a和逻辑处理器401b存储单独的架构状态/情境。在核401中，还可针对线程401a和401b复制其他更小的资源，例如，分配器和重命名器块430中的指令指针和重命名逻辑。通过分区可共享一些资源，例如，重排序/引退单元435中的重排序缓冲器、分支目标缓冲器和指令转译后备缓冲器(BTB和I-TLB)420、加载/存储缓冲器、以及队列。其他资源(例如，通用内部寄存器、(一个或多个)页表基址寄存器、低级别数据缓存和数据TLB 450、(一个或多个)执行单元440、以及重排序/引退单元435的一些部分)可能被完全共享。

处理器400常包括其他资源，这些资源可被完全共享、通过分区被共享、或者被处理元件专用或者专用于处理元件。在图4中，图示了具有处理器的示意性逻辑单元/资源的纯示例性处理器的实施例。应注意，处理器可包括或者省略这些功能单元中的任何一者，以及包括未描绘的任何其他已知的功能单元、逻辑或者固件。如图所示，核401包括简化的、代表性乱序(out-of-order，OOO)处理器核。但在不同的实施例中可使用有序处理器。

核401还包括耦合到取得(fetch)单元的解码模块425以对取得的元素解码。在一个实施例中，取得逻辑包括分别与线程槽401a、401b相关联的单独的定序器。通常核401与第一ISA相关联，该第一ISA定义/指定在处理器400上可执行的指令。经常，作为第一ISA的一部分的机器代码指令包括指令的一部分(称为操作码)，该部分引用/指定待执行的指令或者操作。解码模块425包括以下电路：该电路从这些指令的操作码识别这些指令，并且在管线中传递解码的指令，以用于按第一ISA所定义的那样进行处理。例如，在一个实施例中，解码器模块425包括被设计或适配为识别诸如事务性指令之类的特定指令的逻辑。作为解码器模块425进行的识别的结果，架构或核401采取特定的预定义动作来执行与适当的指令相关联的任务。应注意重要的是：本文描述的任何任务、块、操作和方法可响应于单个或多个指令而被执行；这些指令中的一些可以是新的或者旧的指令。

在一个示例中，分配器和重命名器块430包括分配器以用于预留资源，例如，预留寄存器堆来存储指令处理结果。然而，线程401a和401b可能能够进行乱序执行，其中分配器和重命名器块430还预留其他资源，例如，预留重排序缓冲器来跟踪指令结果。重命名器块430还可包括寄存器重命名器，以将程序/指令引用寄存器重命名为处理器400内部的其他寄存器。重排序/引退单元435包括组件(例如，上文提及的重排序缓冲器、加载缓冲器和存储缓冲器)，来支持对被乱序执行的指令进行的乱序执行和之后的有序引退。

在一个实施例中，调度器和(一个或多个)执行单元块440包括调度器单元来调度关于执行单元的指令/操作。例如，在执行单元的端口上调度浮点指令，其中该执行单元具有可用的浮点执行单元。还包括与执行单元相关联的寄存器堆以存储信息指令处理结果。示例性执行单元包括浮点执行单元、整数执行单元、跳转执行单元、加载执行单元、存储执行单元、以及其他已知的执行单元。

低级别数据缓存和数据转译后备缓冲器(data translation lookaside buffer，D-TLB)450耦合到(一个或多个)执行单元440。数据缓存还用于存储最近使用/操作的元素(例如，数据操作对象)，该元素可被保持在存储器一致性状态下。D-TLB用于存储最近的虚拟/线性到物理地址转译。作为一个具体示例，处理器可包括页表结构来将实体存储器分解成多个虚拟页。

这里，核401和402共享对更高级别或更远的缓存410的访问，该缓存用于缓存最近取得的元素。应注意，更高级别或者更远指的是缓存级别增大或者变得更远离(一个或多个)执行单元。在一个实施例中，更高级别缓存410是最后一级数据缓存——处理器400上的存储器层次体系中的最后缓存——例如第二级或第三级数据缓存。然而，更高级别缓存410不限于此，因为其可以与指令缓存相关联或者包括指令缓存。取而代之，踪迹缓存——一种类型的指令缓存——可被耦合在解码器模块425之后来存储最近解码的踪迹。

在描绘的配置中，处理器400还包括总线接口405和功率控制单元460，其可根据本发明的实施例执行功率管理。在此场景中，总线接口405用于与在处理器400外部的设备(例如，系统存储器和其他组件)进行通信。

存储器控制器470可与诸如一个或许多存储器之类的其他设备进行交互。在一个示例中，总线接口405包括环状互连结构，该环状互连结构具有用于与存储器交互的存储器控制器、以及用于与图形处理器交互的图形控制器。在SoC环境中，甚至更多的设备(例如，网络接口、协处理器、存储器、图形处理器、以及任何其他已知的计算机设备/接口)可被集成在单个管芯或集成电路上，以提供小外形参数以及高功能和低功耗。

现在参考图5，示出的是根据本发明的一个实施例的处理器核的微架构的框图。如图5所示，处理器核500可以是多阶段管线式乱序处理器。核500可基于接收的操作电压而以各种电压进行操作，其中接收的操作电压可以是从集成电压调节器或者外部电压调节器接收的。

从图5中可见，核500包括前端单元510，前端单元510可用于取得待执行的指令并且使它们为以后在处理器管线中使用做好准备。例如，前端单元510可包括取得单元501、指令缓存503、和指令解码器505。在一些实现方式中，前端单元510还可包括踪迹缓存、以及微代码存储装置以及微操作存储装置。取得单元501可取得宏指令(例如，从存储器或指令缓存503取得)，并且将它们馈送到指令解码器505来将其解码成基元(即，供处理器执行的微操作)。

耦合在前端单元510和执行单元520之间的是乱序(OOO)引擎515，该OOO引擎515可用于接收微指令并且使它们为执行做好准备。更具体而言，OOO引擎515可包括各种缓冲器，以用于重排序微指令流并分配执行所需要的各种资源，并且用于提供逻辑寄存器到(诸如寄存器堆530和扩展寄存器堆535之类的)各种寄存器堆内的存储位置上的重命名。寄存器堆530可包括用于整数操作和浮点操作的分离的寄存器堆。为了配置、控制和额外的操作，还可存在一组特定于机器的寄存器(machine specific register，MSR)，并且其是核500内(以及核外部)的各种逻辑可访问的。

各种资源可存在于执行单元520中，包括例如各种整数、浮点、和单指令多数据(single instruction multiple data，SIMD)逻辑单元、以及其他专门的硬件。例如，这种执行单元可包括一个或多个算术逻辑单元(arithmetic logic unit，ALU)522以及一个或多个向量执行单元524，以及其他这种执行单元。

来自执行单元的结果可被提供到引退逻辑，即，重排序缓冲器(reorder buffer，ROB)540。更具体而言，ROB 540可包括各种阵列和逻辑以接收与被执行的指令相关联的信息。此信息随后被ROB 540检查，以确定指令是否可被有效地引退以及结果数据是否可被提交为处理器的架构状态，或者确定是否发生了阻止指令的适当引退的一个或多个异常。当然，ROB 540可处理与引退相关联的其他操作。

如图5所示，ROB 540耦合到缓存550，在一个实施例中，缓存550可以是低级别缓存(例如，L1缓存)，但本发明的范围在这个方面不受限制。此外，执行单元520可直接耦合到缓存550。从缓存550可发生与更高级别缓存、系统存储器等的数据通信。虽然在图5的实施例中是以这个高级别来示出的，但应理解本发明的范围在这个方面不受限制。例如，虽然图5的实现方式是关于诸如

x86指令集架构(ISA)之类的乱序机器的，但本发明的范围在这个方面不受限制。也就是说，其他实施例可被实现在有序处理器、诸如基于ARM的处理器之类的精简指令集计算(reduced instruction set computing，RISC)处理器、或者可经由仿真引擎和关联的逻辑电路来对不同ISA的指令和操作进行仿真的另一类型的ISA的处理器中。

现在参考图6，示出的是根据另一实施例的处理器核的微架构的框图。在图6的实施例中，核600可以是不同微架构的低功率核，例如，基于

Atom^TM的处理器，其具有被设计为降低功耗的、相对有限的管线深度。可以看出，核600包括被耦合以向指令解码器615提供指令的指令缓存610。分支预测器605可耦合到指令缓存610。应注意，指令缓存610还可耦合到另一级别的缓存存储器，例如，L2缓存(在图6中为了图示的方便而没有示出)。转而，指令解码器615将解码的指令提供到发出队列(issue queue，IQ)620，以用于存储和输送到给定的执行管线。微代码ROM 618耦合到指令解码器615。

浮点管线630包括浮点(floating point，FP)寄存器堆632，该浮点寄存器堆632可包括具有诸如128、256或512比特之类的给定比特宽度的多个架构的寄存器。管线630包括浮点调度器634，以用于调度用于在管线的多个执行单元之一上执行的指令。在示出的实施例中，这种执行单元包括算术逻辑单元(arithmetic logic unit，ALU)635、置乱单元636、和浮点(FP)加法器638。转而，在这些执行单元中生成的结果可被提供回到寄存器堆632的缓冲器和/或寄存器。当然应理解，虽然是以这几个示例执行单元来示出的，但在另一实施例中可存在额外的或者不同的浮点执行单元。

还可提供整数管线640。在示出的实施例中，管线640包括整数(INT)寄存器堆642，该整数寄存器堆642可包括具有诸如128或256比特之类的给定比特宽度的多个架构的寄存器。管线640包括整数执行(integer execution，IE)调度器644，以用于调度用于在管线的多个执行单元之一上执行的指令。在示出的实施例中，这种执行单元包括ALU 645、移位器单元646、以及跳转执行单元(jump execution unit，JEU)648。转而，在这些执行单元中生成的结果可被提供回到寄存器堆642的缓冲器和/或寄存器。当然应理解，虽然是以这几个示例执行单元示出的，但在另一实施例中可存在额外的或者不同的整数执行单元。

存储器执行(memory execution，ME)调度器650可调度用于在地址生成单元(address generation unit，AGU)652中执行的存储器操作，该地址生成单元652还耦合到TLB 654。可以看出，这些结构可耦合到数据缓存660，数据缓存660可以是L0和/或L1数据缓存，该L0和/或L1数据缓存转而耦合到缓存存储器层次体系的额外级别，包括L2缓存存储器。

为了提供对乱序执行的支持，除了重排序缓冲器680以外，还可提供分配器/重命名器670，该重排序缓冲器680被配置为对被乱序执行的指令进行重排序以便有序引退。虽然在图6的图示中是以这个特定的管线架构来示出的，但应理解许多变化和替代是可能的。

应注意，在(例如根据图5和图6的微架构的)具有非对称核的处理器中，可出于功率管理原因在核之间动态地调换工作负载，因为这些核虽然具有不同的管线设计和深度，但可具有相同或相关的ISA。可以按对于用户应用而言透明(并且可能对于内核也透明)的方式来执行这种动态的核调换。

参考图7，示出的是根据又一实施例的处理器核的微架构的框图。如图7所示，核700可包括用于以非常低的功耗水平执行的多阶段有序管线。作为一个这种示例，核700可具有微架构，该微架构是根据可从加州森尼维尔市的ARM控股有限公司获得的ARM CortexA53设计的。在一种实现方式中，可提供被配置为既执行32比特代码也执行64比特代码的8阶段管线。核700包括取得单元710，该取得单元710被配置为取得指令并将它们提供到解码单元715，解码单元715可对指令(例如，诸如ARMv8 ISA之类的给定ISA的宏指令)进行解码。还应注意，队列730可耦合到解码单元715以存储解码的指令。解码的指令被提供到发出逻辑725，在发出逻辑725处，解码的指令可被发出到多个执行单元中的给定一个。

进一步参考图7，发出逻辑725可将指令发出到多个执行单元之一。在示出的实施例中，这些执行单元包括整数单元735、乘法单元740、浮点/向量单元750、双重发出单元760、以及加载/存储单元770。这些不同执行单元的结果可被提供到写回(WB)单元780。应理解，虽然为了图示的方便而示出了单个写回单元，但在一些实现方式中，分离的写回单元可与每个执行单元相关联。此外，应理解，虽然图7所示的每个单元和逻辑是以高级别来表示的，但特定的实现方式可包括更多的或不同的结构。使用一个或多个(如图7所示的)具有管线的核来设计的处理器可被实现在从移动设备延伸到服务器系统的许多不同的终端产品中。

参考图8，示出的是根据再一实施例的处理器核的微架构的框图。如图8所示，核800可包括用于以非常高的性能水平执行(其可以以比图7的核700更高的功耗水平发生)的多阶段多发出乱序管线。作为一个这种示例，处理器800可具有根据ARM Cortex A57设计的微架构。在一种实现方式中，可提供被配置为既执行32比特代码也执行64比特代码的15(或更多)阶段管线。此外，管线可提供3宽(或更宽)和3发出(或更多发出)操作。核800包括取得单元810，取得单元810被配置为取得指令并且将它们提供到耦合到缓存820的解码器/重命名器/调遣器单元815。单元815可对指令(例如，ARMv8指令集架构的宏指令)进行解码，对指令内的寄存器引用进行重命名，并且(最终)将指令调遣到所选择的执行单元。解码的指令可被存储在队列825中。应注意，虽然在图8中为了图示的方便而示出了单个队列结构，但应理解可针对多个不同类型的执行单元中的每一者提供分离的队列。

图8中还示出了发出逻辑830，其中，存储在队列825中的解码的指令可从该发出逻辑830被发出到所选择的执行单元。发出逻辑830还可以以如下特定实施例来实现：在该特定实施例中，针对发出逻辑830所耦合到的多种不同类型的执行单元中的每一者具有单独的发出逻辑。

解码的指令可被发出到多个执行单元中的给定一个。在示出的实施例中，这些执行单元包括一个或多个整数单元835、乘法单元840、浮点/向量单元850、分支单元860、以及加载/存储单元870。在一个实施例中，浮点/向量单元850可被配置为处理128或256比特的SIMD或向量数据。此外，浮点/向量执行单元850可执行IEEE-754双精度浮点操作。这些不同执行单元的结果可被提供到写回单元880。应注意，在一些实现方式中，分离的写回单元可与执行单元中的每一者相关联。此外，应理解，虽然图8所示的每个单元和逻辑是以高级别来表示的，但特定的实现方式可包括更多的或不同的结构。

应注意，在(例如根据图7和图8的微架构的)具有非对称核的处理器中，可出于功率管理原因而动态地调换工作负载，因为这些核虽然具有不同的管线设计和深度，但可具有相同或相关的ISA。可以按对于用户应用而言透明(并且可能对于内核也透明)的方式来执行这种动态的核调换。

使用一个或多个(如图5至图8中的任何一个或多个图中所示的)具有管线的核来设计的处理器可被实现在从移动设备延伸到服务器系统的许多不同的终端产品中。现在参考图9，示出的是根据本发明的另一实施例的处理器的框图。在图9的实施例中，处理器900可以是包括多个域的SoC，每个域可被控制为以独立的操作电压和操作频率进行操作。作为具体的示意性示例，处理器900可以是可从英特尔公司获得的基于

ArchitectureCore^TM的处理器(例如，i3、i5、i7或另外的这种处理器)。然而，其他低功率处理器(例如，可从加州森尼维尔市的超微半导体公司(AMD)获得的低功率处理器、来自ARM控股有限公司或其被许可方的基于ARM的设计、或者来自加州森尼维尔市的MIPS技术公司或者其被许可方或采用者的基于MIPS的设计)可取而代之存在于其他实施例中，例如，苹果A7处理器、高通骁龙处理器或者德州仪器OMAP处理器。这种SoC可用于低功率系统(例如，智能电话、平板计算机、平板手机计算机、Ultrabook^TM计算机、或者其他便携式计算设备)中，该低功率系统可包含具有基于异构系统架构的处理器设计的异构系统架构。

在图9中所示的高级别视图中，处理器900包括多个核单元910a-910n。每个核单元可包括一个或多个处理器核、一个或多个缓存存储器以及其他电路。每个核单元910可支持一个或多个指令集(例如，x86指令集(具有已随着较新版本添加的一些扩展)；MIPS指令集；ARM指令集(具有诸如NEON之类的可选附加扩展)或者其他指令集或者其组合。应注意，核单元中的一些可以是异构资源(例如，具有不同的设计)。此外，每个这种核可耦合到缓存存储器(未示出)，该缓存存储器在一个实施例中可以是共享级别二(L2)缓存存储器。非易失性存储装置930可被用于存储各种程序和其他数据。例如，此存储装置可用于存储微代码的至少一些部分、诸如BIOS之类的引导信息、其他系统软件等。

每个核单元910还可包括接口(例如，总线接口单元)，来使得能够互连到处理器的额外电路。在一个实施例中，每个核单元910耦合到可充当主缓存一致片上互连结构的一致结构，该一致结构转而耦合到存储器控制器935。转而，存储器控制器935控制与诸如DRAM之类的存储器(在图9中为了图示的方便而没有示出)的通信。

除了核单元以外，处理器内还存在额外的处理引擎，包括至少一个图形单元920，该图形单元920可包括一个或多个图形处理单元(graphics processing unit，GPU)，以用于执行图形处理，并可用于执行图形处理器上的通用操作(所谓的GPGPU操作)。此外，可存在至少一个图像信号处理器925。信号处理器925可被配置为处理从在SoC内部或者在片外的一个或多个捕获设备接收的传入图像数据。

还可存在其他加速器。在图9的图示中，视频编码器950可执行包括对视频信息进行编码和解码的编码操作，例如为高清晰度视频内容提供硬件加速支持。还可提供显示控制器955来加速显示操作，包括为系统的内部和外部显示器提供支持。此外，可存在安全性处理器945，以用于执行诸如安全引导操作、各种密码操作等之类的安全性操作。

每个单元的功耗可经由功率管理器940来控制，该功率管理器940可包括用于执行本文描述的各种功率管理技术的控制逻辑。

在一些实施例中，处理器900还可包括耦合到一致结构的非一致结构，其中各种外围设备可耦合到该一致结构。一个或多个接口960a-960d实现与一个或多个片外设备的通信。这种通信可经由各种通信协议，例如PCIe^TM、GPIO、USB、I²C、UART、MIPI、SDIO、DDR、SPI、HDMI、以及其他类型的通信协议。虽然在图9的实施例中是在这个高级别示出的，但应理解本发明的范围在这个方面不受限制。

现在参考图10，示出的是代表性SoC的框图。在示出的实施例中，SoC 1000可以是多核SoC，该多核SoC被配置用于低功率操作以被优化为包含到智能电话或(诸如平板计算机或其他便携式计算设备之类的)其他低功率设备中。作为一个示例，可使用非对称的或不同类型的核来实现SoC 1000，例如，更高功率和/或低功率核的组合，例如乱序核和有序核。在不同的实施例中，这些核可基于

Architecture^TM核设计或者ARM架构设计。在另外的其他实施例中，在给定的SoC中可实现Intel和ARM核的混合。

从图10中可看出，SoC 1000包括具有多个第一核1012₀–1012₃的第一核域1010。在一个示例中，这些核可以是诸如有序核之类的低功率核。在一个实施例中，这些第一核可被实现为ARM Cortex A53核。转而，这些核耦合到核域1010的缓存存储器1015。此外，SoC1000包括第二核域1020。在图10的图示中，第二核域1020具有多个第二核1022₀–1022₃。在一个示例中，这些核可以是比第一核1012更高功耗的核。在一个实施例中，第二核可以是乱序核，这些乱序核可被实现为ARM Cortex A57核。转而，这些核耦合到核域1020的缓存存储器1025。应注意，虽然图10所示的示例在每个域中包括4个核，但应理解在其他示例中在给定的域中可存在更多或更少的核。

进一步参考图10，还提供了图形域1030，该图形域1030可包括被配置为独立地执行(例如，由核域1010和1020的一个或多个核提供的)图形工作负载的一个或多个图形处理单元(GPU)。作为一个示例，除了提供图形和显示渲染操作以外，GPU域1030还可被用于提供针对各种屏幕大小的显示支持。

可以看出，各种域耦合到一致互连结构1040，该一致互连结构1040在一实施例中可以是缓存一致互连结构，该缓存一致互连结构转而耦合到集成的存储器控制器1050。在一些示例中，一致互连结构1040可包括共享的缓存存储器，例如，L3缓存。在一个实施例中，存储器控制器1050可以是直接存储器控制器，以用于提供与片外存储器的通信的多个通道，例如，DRAM的多个通道(在图10中为了图示的方便而没有示出)。

在不同的示例中，核域的数目可变化。例如，对于适合于包含到移动计算设备中的低功率SoC，可存在例如图10中所示的有限数目的核域。此外，在这种低功率SoC中，包括更高功率核的核域1020可具有更少数目的这种核。例如，在一个实现方式中，可提供两个核1022来使得能够以降低的功耗水平进行操作。此外，不同的核域还可耦合到中断控制器，以使得能够在不同的域之间进行对工作负载的动态调换。

在另外的其他实施例中，可存在更大数目的核域以及额外的可选IP逻辑，因为SoC可被缩放到更高性能(以及功率)水平，以便包含到其他计算设备中(例如，桌面型计算机、服务器、高性能计算系统、基站等)。作为一个这种示例，可提供4个核域，每个核域具有给定数目的乱序核。此外，除了可选的GPU支持以外(其作为示例可采取GPGPU的形式)，还可提供一个或多个加速器来提供对特定功能(例如，web服务、网络处理、交换等)的优化硬件支持。此外，还可存在输入/输出接口来将这种加速器耦合到片外组件。

现在参考图11，示出的是另一示例SoC的框图。在图11的实施例中，SoC 1100可包括各种电路来针对多媒体应用、通信和其他功能实现高性能。这样，SoC 1100适合于包含到各种各样的便携设备和其他设备中，例如，智能电话、平板计算机、智能TV等。在示出的示例中，SoC 1100包括中央处理器单元(central processor unit，CPU)域1110。在一个实施例中，多个单独的处理器核可存在于CPU域1110中。作为一个示例，CPU域1110可以是具有4个多线程核的四核处理器。这种处理器可以是同构或异构处理器，例如，低功率和高功率处理器核的混合。

转而，提供GPU域1120来在一个或多个GPU中执行高级图形处理，以处理图形和计算API。DSP单元1130除了可提供发生在多媒体指令的执行期间的高级计算以外，还可提供一个或多个低功率DSP来处理低功率多媒体应用，例如，音乐重放、音频/视频等。转而，通信单元1140可包括各种组件来经由各种无线协议提供连通性，例如，蜂窝通信(包括3G/4GLTE)、诸如Bluetooth^TM之类的无线局域协议、IEEE 802.11等。

此外，多媒体处理器1150可用于执行对高清晰度视频和音频内容的捕获和重放，包括对用户姿态的处理。传感器单元1160可包括多个传感器和/或传感器控制器来与存在于给定平台中的各种片外传感器交互。图像信号处理器(image signal processor，ISP)1170可执行关于来自平台的一个或多个相机(包括静态相机和视频相机)的捕获内容的图像处理。

显示处理器1180可提供对与给定像素密度的高清晰度显示器的连接的支持，包括无线地传输内容以用于在这种显示器上重放的能力。此外，位置单元1190可包括全球定位系统(Global Positioning System，GPS)接收器，该GPS接收器具有对多个GPS星座的支持，以向应用提供使用这种GPS接收器获得的高度准确的定位信息。应理解，虽然在图11的示例中是以这组特定的组件来示出的，但许多变化和替代是可能的。

现在参考图12，示出的是可与实施例一起使用的示例系统的框图。可以看出，系统1200可以是智能电话或者其他无线通信器。基带处理器1205被配置为执行关于待从系统发送或者被系统接收的通信信号的各种信号处理。转而，基带处理器1205耦合到应用处理器1210，应用处理器1210可以是系统的主CPU，以用于执行OS和其他系统软件、以及诸如许多公知的社交媒体和多媒体app之类的用户应用。应用处理器1210还可被配置为执行针对设备的各种其他计算操作。

转而，应用处理器1210可耦合到用户界面/显示器1220，例如，触摸屏显示器。此外，应用处理器1210可耦合到存储器系统，该存储器系统包括非易失性存储器(即，闪速存储器1230)以及系统存储器(即，动态随机存取存储器(dynamic random access memory，DRAM)1235)。还可看出，应用处理器1210还耦合到捕获设备1241，例如，可记录视频和/或静态图像的一个或多个图像捕获设备。

仍参考图12，通用集成电路卡(universal integrated circuit card，UICC)1240也耦合到应用处理器1210，该通用集成电路卡包括订户身份模块并且可能包括安全存储装置及密码处理器。系统1200还可包括安全性处理器1250，该安全性处理器1250可耦合到应用处理器1210。多个传感器1225可耦合到应用处理器1210以使得能够输入各种感测的信息，例如，加速度计和其他环境信息。音频输出设备1295可提供接口来输出声音，例如，以语音通信、播放的或流媒体音频数据等的形式。

如还图示的，提供了近场通信(near field communication，NFC)无接触接口1260，其经由NFC天线1265在NFC近场中进行通信。虽然在图12中示出了分离的天线，但应理解，在一些实现方式中，可提供一个天线或者不同组天线来实现各种无线功能。

功率管理集成电路(power management integrated circuit，PMIC)1215耦合到应用处理器1210以执行平台级功率管理。为此，PMIC 1215可向应用处理器1210发出功率管理请求以根据需要进入某些低功率状态。此外，基于平台约束，PMIC 1215还可控制系统1200的其他组件的功率水平。

为了实现待被发送和接收的通信，各种电路可被耦合在基带处理器1205和天线1290之间。具体而言，可存在射频(radio frequency，RF)收发器1270和无线局域网(wireless local area network，WLAN)收发器1275。总体上，RF收发器1270可用于根据给定的无线通信协议来接收和发送无线数据和呼叫，给定的无线通信协议例如是3G或4G无线通信协议，例如，其是根据码分多址(code division multiple access，CDMA)、全球移动通信系统(global system for mobile communication，GSM)、长期演进(long termevolution，LTE)或其他协议的。此外，可存在GPS传感器1280。还可提供其他无线通信，例如，对无线电信号(例如，AM/FM)和其他信号的接收或发送。此外，经由WLAN收发器1275，还可实现本地无线通信。

现在参考图13，示出的是可与实施例一起使用的另一示例系统的框图。在图13的图示中，系统1300可以是移动低功率系统，例如，平板计算机、2:1平板设备、平板手机、或者其他可转换的或独立的平板系统。如图所示，存在SoC 1310，并且其可被配置为作为设备的应用处理器进行操作。

各种设备可耦合到SoC 1310。在示出的图示中，存储器子系统包括耦合到SoC1310的闪速存储器1340和DRAM 1345。此外，触摸面板1320耦合到SoC 1310以提供显示能力和经由触摸的用户输入，包括在触摸面板1320的显示器上提供虚拟键盘。为了提供有线网络连通性，SoC 1310耦合到以太网接口1330。外设中枢(peripheral hub)1325耦合到SoC1310以实现与各种外围设备的交互，例如，各种外围设备可通过各种端口或其他连接器中的任何一者耦合到系统1300。

除了SoC 1310内的内部功率管理电路和功能以外，PMIC 1380还耦合到SoC 1310以提供基于平台的功率管理，例如，基于系统是被电池1390供电还是经由AC适配器1395被AC电力供电。除了这个基于电源的功率管理以外，PMIC 1380还可基于环境和使用状况来执行平台功率管理活动。此外，PMIC 1380可以向SoC 1310传达控制和状态信息以引起SoC1310内的各种功率管理动作。

仍然参考图13，为了提供无线能力，WLAN单元1350耦合到SoC 1310并且转而耦合到天线1355。在各种实现方式中，WLAN单元1350可根据一个或多个无线协议来提供通信。

如还图示的，多个传感器1360可耦合到SoC 1310。这些传感器可包括各种加速度计、环境和其他传感器，包括用户姿态传感器。最后，音频编解码器1365耦合到SoC 1310以提供到音频输出设备1370的接口。当然应理解，虽然在图13中是以这个特定实现方式示出的，但许多变化和替代是可能的。

现在参考图14，示出了诸如笔记本、Ultrabook^TM或其他小外形参数系统之类的代表性计算机系统1400的框图。在一个实施例中，处理器1410包括微处理器、多核处理器、多线程处理器、超低电压处理器、嵌入式处理器、或者其他已知的处理元件。在图示的实现方式中，处理器1410充当主处理单元和中央中枢以用于与系统1400的各种组件中的许多进行通信，并且可包括如本文所述的功率管理电路。作为一个示例，处理器1410被实现为SoC。

在一个实施例中，处理器1410与系统存储器1415通信。作为说明性示例，系统存储器1415是经由多个存储器设备或模块来实现的，以提供给定量的系统存储器。

为了提供对诸如数据、应用、一个或多个操作系统等之类的信息的持久性存储，大容量存储装置1420还可耦合到处理器1410。在各种实施例中，为了实现更薄和更轻的系统设计以及为了改善系统响应能力，可经由SAD来实现这个大容量存储装置，或者可主要使用硬盘驱动器(hard disk drive，HDD)来实现该大容量存储装置，其中较小量的SAD存储装置充当SAD缓存来使得能够在掉电事件期间对情境状态和其他这种信息进行非易失性存储，从而使得在系统活动重起时可发生快速上电。图14中还示出的是，闪存设备1422可耦合到处理器1410，例如，经由串行外围接口(serial peripheral interface，SPI)来耦合。这个闪存设备可提供对系统软件的非易失性存储，包括基本输入/输出软件(basic input/output software，BIOS)以及系统的其他固件。

各种输入/输出(I/O)设备可存在于系统1400内。具体而言，在图14的实施例中示出的是显示器1424，其可以是还提供了触摸屏1425的高清晰度LCD或LED面板。在一个实施例中，显示器1424可经由显示互连结构耦合到处理器1410，该显示互连结构可被实现为高性能图形互连结构。触摸屏1425可经由另一互连结构耦合到处理器1410，在一实施例中，该另一互连结构可以是I²C互连结构。如图14中还示出的，除了触摸屏1425以外，借由触摸的用户输入还可经由触摸板1430发生，该触摸板1430可被配置在机壳内并且还可耦合到与触摸屏1425相同的I²C互连结构。

为了感知计算和其他的目的，系统内可存在各种传感器，并且各种传感器可按不同的方式耦合到处理器1410。某些惯性和环境传感器可通过传感器中枢1440(例如，经由I²C互连结构)耦合到处理器1410。在图14所示的实施例中，这些传感器可包括加速度计1441、环境光传感器(ambient light sensor，ALS)1442、指南针1443、以及陀螺仪1444。其他环境传感器可包括一个或多个热传感器1446，在一些实施例中，这些热传感器1446经由系统管理总线(SMBus)总线耦合到处理器1410。

在图14中还可看出，各种外围设备可经由低引脚数(low pin count，LPC)互连结构耦合到处理器1410。在示出的实施例中，各种组件可通过嵌入式控制器1435被耦合。这种组件可包括键盘1436(例如，经由PS2接口耦合)、风扇1437、以及热传感器1439。在一些实施例中，触摸板1430也可经由PS2接口耦合到EC 1435。此外，诸如可信平台模块(trustedplatform module，TPM)1438之类的安全性处理器也可经由这个LPC互连结构来耦合到处理器1410。

系统1400可以以各种方式与外部设备进行通信，包括无线地通信。在图14所示的实施例中，存在各种无线模块，其中每一者可对应于被配置用于特定的无线通信协议的无线电装置。用于诸如近场之类的短距离中的无线通信的一种方式可经由NFC单元1445，在一个实施例中，该NFC单元1445可经由SMBus与处理器1410进行通信。应注意，经由这个NFC单元1445，彼此很接近的设备可通信。

从图14中还可看出，额外的无线单元可包括其他短距离无线引擎，包括WLAN单元1450和Bluetooth^TM单元1452。使用WLAN单元1450，可以实现Wi-Fi^TM通信，而经由Bluetooth^TM单元1452，可发生短距离Bluetooth^TM通信。这些单元可经由给定的链路与处理器1410进行通信。

此外，无线广域通信，例如根据蜂窝或其他无线广域协议的无线广域通信，可经由WWAN单元1456发生，该WWAN单元1456转而可耦合到订户身份模块(subscriber identitymodule，SIM)1457。此外，为了实现对位置信息的接收和使用，还可存在GPS模块1455。应注意，在图14所示的实施例中，WWAN单元1456和诸如相机模块1454之类的集成捕获设备可经由给定的链路进行通信。

为了提供音频输入和输出，可经由数字信号处理器(digital signal processor，DSP)1460来实现音频处理器，该DSP 1460可经由高清晰度音频(high definition audio，HDA)链路耦合到处理器1410。类似地，DSP 1460可与集成编码器/解码器(CODEC)及放大器1462进行通信，该集成CODEC及放大器1462转而可耦合到输出扬声器1463，该输出扬声器1463可被实现在机壳内。类似地，放大器及CODEC 1462可被耦合为从麦克风1465接收音频输入，该在一实施例中，麦克风1465可经由双阵列麦克风(例如，数字麦克风阵列)来实现，以提供高质量音频输入，从而实现对系统内的各种操作的由语音激活的控制。还应注意，音频输出可从放大器/CODEC 1462被提供到耳机插孔1464。虽然在图14的实施例中是以这些特定组件来示出的，但应理解本发明的范围在这个方面不受限制。

实施例可以以许多不同的系统类型来实现。现在参考图15A，示出的是根据本发明的实施例的系统的框图。如图15A中所示，多处理器系统1500是点到点互连系统，并且包括经由点到点互连结构1550耦合的第一处理器1570和第二处理器1580。如图15A中所示，处理器1570和1580中的每一者可以是多核处理器，包括第一和第二处理器核(即，处理器核1574a和1574b以及处理器核1584a和1584b)，但可在处理器中存在可能多得多的核。每个处理器可包括PCU或用于执行如本文所述的基于处理器的功率管理的其他功率管理逻辑。

仍参考图15A，第一处理器1570还包括集成存储器控制器(integrated memorycontroller，IMC)1572和点到点(point-to-point，P-P)接口1576和1578。类似地，第二处理器1580包括IMC 1582和P-P接口1586和1588。如图15中所示，IMC 1572和1582将处理器耦合到相应的存储器，即存储器1532和存储器1534，存储器1532和存储器1534可以是在本地附接到相应处理器的系统存储器(例如，DRAM)的一部分。第一处理器1570和第二处理器1580可分别经由P-P互连结构1562和1564耦合到芯片组1590。如图15A中所示，芯片组1590包括P-P接口1594和1598。

此外，芯片组1590包括接口1592，用于通过P-P互连结构1539将芯片组1590与高性能图形引擎1538进行耦合。转而，芯片组1590可经由接口1596耦合到第一总线1516。如图15A中所示，各种输入/输出(I/O)设备1514可以与总线桥1518一起耦合到第一总线1516，其中总线桥1518将第一总线1516耦合到第二总线1520。各种设备可耦合到第二总线1520，包括例如键盘/鼠标1522、通信设备1526和数据存储单元1528，例如，盘驱动器或者其他大容量存储设备，其中一个实施例中，该数据存储单元在可包括代码1530。此外，音频I/O 1524可耦合到第二总线1520。实施例可被包含到其他类型的系统中，该其他类型的系统包括移动设备，例如，智能蜂窝电话、平板计算机、上网本、Ultrabook^TM等。

现在参考图15B，示出的是根据本发明的实施例的第二更具体示例性系统1501的框图。图15A和图15B中的相似元素带有相似的附图标记，并且从图15B省略了图15A的某些方面以避免模糊图15B的其他方面。

图15B图示出了处理器1570、1580可分别包括集成存储器和I/O控制逻辑(“CL”)1571和1581。因此，控制逻辑1571和1581包括集成存储器控制器单元并且包括I/O控制逻辑。图15B图示出不仅存储器1532、1534耦合到控制逻辑1571和1581，而且I/O设备1532也耦合到控制逻辑1571和1581。传统I/O设备1515耦合到芯片组1590。

至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性代码实现，该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可包括表示处理器内的各种逻辑的指令。指令当被机器读取时，可使得该机器制作逻辑来执行本文描述的技术。这种被称为“IP核”的表现形式是用于集成电路的逻辑的可重复使用单元，这些单元可作为描述该集成电路的结构的硬件模型被存储在有形机器可读介质上。该硬件模型可被提供到各种客户或制造设施，它们在制造集成电路的制作机器上加载该硬件模型。可以制作集成电路，使得该电路执行与本文描述的任何实施例关联描述的操作。

图16是图示了根据实施例的IP核开发系统1600的框图，该IP核开发系统可用于制造用于执行操作的集成电路。IP核开发系统1600可用于生成模块化的、可重复使用的设计，该设计可被包含到更大的设计中或者被用于构造整个集成电路(例如，SoC集成电路)。设计设施1630可以以高级别编程语言(例如，C/C++)生成IP核设计的软件模拟1610。软件模拟1610可用于设计、测试和验证IP核的行为。然后可从模拟模型创建或合成寄存器传送级(register transfer level，RTL)设计。RTL设计1615是对硬件寄存器之间的数字信号的流动进行建模的集成电路的行为的抽象，其包括使用建模的数字信号执行的关联逻辑。除了RTL设计1615以外，还可创建、设计或者合成在逻辑级或晶体管级的更低级别设计。从而，初始设计和模拟的特定细节可变化。

RTL设计1615或等同物还可被设计设施合成为硬件模型1620，该硬件模型1620可采取硬件描述语言(hardware description language，HDL)或者实体设计数据的某种其他表现形式。HDL可被进一步模拟或测试来验证IP核设计。IP核设计可被存储，以用于使用非易失性存储器1640(例如，硬盘、闪速存储器、或者任何其他非易失性存储介质)而输送到第三方制作设施1665。可替代地，可通过有线连接结构1650或无线连接结构1660(例如，经由互联网)来传输IP核设计。制作设施1665随后可制作至少部分基于该IP核设计的集成电路。制作出的集成电路可被配置为根据本文描述的组件和/或过程来执行操作。

下文描述的图17A至图25详述了用于实现本文描述的组件和/或过程的实施例的示例性架构和系统。在一些实施例中，本文描述的一个或多个硬件组件和/或指令被如下详述那样来仿真，或者被实现为软件模块。

可以以下文详述的“通用向量友好指令格式”来实现上文详述的(一个或多个)指令的实施例。在其他实施例中，不使用这种格式而使用另一指令格式，然而，下文对写入掩码寄存器、各种数据变换(调配、广播等)、寻址等的描述总体地适用于对以上(一个或多个)指令的实施例的描述。此外，下文详述了示例性系统、架构和管线。以上(一个或多个)指令的实施例可在这种系统、架构和管线上被执行，但不限于详述的那些。

指令集可包括一个或多个指令格式。给定的指令格式可定义各种字段(例如，比特的数目、比特的位置)来指定待执行的操作(例如，操作码)和待在其上执行该操作的(一个或多个)操作对象和/或其他(一个或多个)数据字段(例如，掩码)等。一些指令格式通过对指令模板(或子格式)的定义被进一步分解。例如，给定的指令格式的指令模板可被定义为具有该指令格式的字段的不同子集(包括的字段通常是按相同顺序的，但至少一些因为包括的字段更少而具有不同的比特位置)和/或被定义为具有以不同方式解读的给定字段。因此，ISA的每个指令是使用给定的指令格式来表达的(并且如果定义了的话，则以该指令格式的指令模板中的一个给定指令模板来表达)，并且包括用于指定操作和操作对象的字段。例如，示例性ADD指令具有特定的操作码和指令格式，该指令格式包括操作码字段来指定该操作码并且包括操作对象字段来选择操作对象(源1/目的地和源2)；并且这个ADD指令在指令流中的出现将使选择特定操作对象的操作对象字段中具有特定内容。被称为高级向量扩展(Advanced Vector Extension，AVX)(AVX1和AVX2)并且使用向量扩展(VectorExtension，VEX)编码方案的SIMD扩展的集合已被发布和/或发表(例如，参见

64和IA-32架构软件开发者手册，2014年9月；以及参见

高级向量扩展编程参考，2014年10月)。

示例性指令格式

可以以不同的格式来实现本文描述的(一个或多个)指令的实施例。此外，下文详述了示例性系统、架构和管线。(一个或多个)指令的实施例可以在这种系统、架构和管线上执行，但不限于详述的这些。

通用向量友好指令格式

向量友好指令格式是适合于向量指令的指令格式(例如，存在某些特定于向量操作的字段)。虽然描述了通过向量友好指令格式来支持向量和标量操作两者的实施例，但替代性实施例仅向量操作使用向量友好指令格式。

图17A至17B是图示了根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图17A是图示了根据本发明的实施例的通用向量友好指令格式及其类别A指令模板的框图；而图17B是图示了根据本发明的实施例的通用向量友好指令格式及其类别B指令模板的框图。具体而言，针对通用向量友好指令格式1700定义了类别A和类别B指令模板，这两个指令模板都包括无存储器访问1705指令模板和存储器访问1720指令模板。术语“通用”在向量友好指令格式的上下文中指的是该指令格式不被绑定到任何特定的指令集。

虽然将描述其中向量友好指令格式支持以下项的本发明的实施例：64字节向量操作对象长度(或大小)，其具有32比特(4字节)或64比特(8字节)的数据元素宽度(或者大小)(从而，64字节向量由16个双字大小的元素、或者替代地8个四字大小的元素构成)；64字节向量操作对象长度(或大小)，其具有16比特(2字节)或8比特(1字节)的数据元素宽度(或大小)；32字节向量操作对象长度(或大小)，其具有32比特(4字节)、64比特(8字节)、16比特(2字节)、或者8比特(1字节)的数据元素宽度(或大小)；以及16字节向量操作对象长度(或大小)，其具有32比特(4字节)、64比特(8字节)、16比特(2字节)、或者8比特(1字节)的数据元素宽度(或大小)；但替代性实施例可支持具有更多、更少或不同的数据元素宽度(例如，128比特(16字节)的数据元素宽度)的更多、更少和/或不同的向量操作对象大小(例如，256字节向量操作对象)。

图17A中的类别A指令模板包括：1)在无存储器访问1705指令模板内示出的无存储器访问、完全舍入控制型操作1710指令模板以及无存储器访问、数据变换型操作1715指令模板；以及2)在存储器访问1720指令模板内示出的存储器访问、暂态1725指令模板以及存储器访问、非暂态1730指令模板。图17B中的类别B指令模板包括：1)在无存储器访问1705指令模板内示出的无存储器访问、写入掩码控制、部分舍入控制型操作1712指令模板以及无存储器访问、写入掩码控制、上下缩放大小(vsize)型操作1717指令模板；以及2)在存储器访问1720指令模板内示出的存储器访问、写入掩码控制1727指令模板。

通用向量友好指令格式1700包括下文按图17A至图17B中所示的顺序列出的以下字段。

格式字段1740—此字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式，并因而标识在指令流中出现了采取向量友好指令格式的指令。这样，此字段是可选的，因为它对于仅具有通用向量友好指令格式的指令集而言是不需要的。

基本操作字段1742—其内容区分不同的基本操作。

寄存器索引字段1744—其内容直接地或者通过地址生成而指定源和目的地操作对象的位置，无论它们位于寄存器中还是位于存储器中。这些包括充分数目的比特来从PxQ(例如，32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。虽然在一个实施例中N可以多达三个源和一个目的地寄存器，但替代性实施例可支持更多或更少的源和目的地寄存器(例如，可支持多达两个源，其中这些源之一也充当目的地；可支持多达三个源，其中这些源之一也充当目的地；可支持多达两个源和一个目的地)。

修饰字段1746—其内容将按通用向量指令格式的指令中出现的指定存储器访问的指令与非指定存储器访问的指令进行区分；也就是说，在无存储器访问1705指令模板与存储器访问1720指令模板之间进行区分。存储器访问操作向存储器层次体系进行读取和/或写入(在一些情况下使用寄存器中的值指定源和/或目的地址)，而非存储器访问操作不向存储器层次体系进行读取和/或写入(例如，源和目的地是寄存器)。虽然在一个实施例中这个字段还在用于执行存储器地址计算的三种不同方式之间进行选择，但替代性实施例可支持更多、更少或不同的方式来执行存储器地址计算。

增强操作字段1750—其内容区分除了基本操作以外还将执行各种不同的操作中的哪种操作。此字段是依上下文而定的。在本发明的一个实施例中，此字段被划分成类别字段1768、阿尔法字段1752、以及贝塔字段1754。增强操作字段1750允许了在单个指令而不是2、3或4个指令中执行共同的操作群组。

缩放字段1760—其内容允许了缩放索引字段的内容以进行存储器地址生成(例如，针对使用2^缩放*索引+基址的地址生成)。

位移字段1762A—其内容被用作存储器地址生成的一部分(例如，针对使用2^缩放*索引+基址+位移的地址生成)。

位移因子字段1762B(应注意，将位移字段1762A并列在位移因子字段1762B的正上方指示一者或另一者被使用)—其内容被用作地址生成的一部分；其指定待被缩放存储器访问的大小(N)的位移因子—其中N是存储器访问中的字节的数目(例如，针对使用2^缩放*索引+基址+缩放的位移的地址生成)。冗余的低阶比特被忽略，并且因此，位移因子字段的内容被乘以存储器操作对象总大小(N)，以生成待在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段1774(本文中稍后描述)和数据操纵字段1754C来确定。位移字段1762A和位移因子字段1762B是可选的，因为它们不被用于无存储器访问1705指令模板，和/或不同的实施例可仅实现两者中的一者或者两者都不实现。

数据元素宽度字段1764—其内容区分将使用若干个数据元素宽度中的哪一个(在一些实施例中是针对所有指令的；在其他实施例中仅针对指令中的一些)。此字段是可选的，因为在仅一个数据元素宽度被支持和/或数据元素宽度是使用操作码的某个方面来支持的情况下，则不需要该字段。

写入掩码字段1770—其内容基于每个数据元素位置来控制目的地向量操作对象中的该数据元素位置是否反映基本操作和增强操作的结果。类别A指令模板支持合并-写入掩蔽，而类别B指令模板支持合并-写入掩蔽和归零-写入掩蔽两者。当合并时，向量掩码允许目的地中的任何元素集合在(由基本操作和增强操作指定的)任何操作的执行期间被保护免于更新；在其他的一个实施例中，保留目的地的相应的掩码比特具有0的每个元素的旧值。与之不同的是，当归零向量掩码允许了目的地中的任何元素集合在(由基本操作和增强操作指定的)任何操作的执行期间被归零时；在一个实施例中，目的地的元素在相应的掩码比特具有0值时被设置到0。这个功能的子集是控制被执行的操作的向量长度(即，被修改的元素从第一个到最后一个的跨度)的能力；然而，被修改的元素不一定需要是连续的。因此，写入掩码字段1770允许了部分向量操作，包括加载、存储、算术、逻辑等。虽然描述了写入掩码字段1770的内容选择若干个写入掩码寄存器中包含待使用的写入掩码的写入掩码寄存器(从而写入掩码字段1770的内容间接标识待执行的该掩蔽)的本发明实施例，但替代性实施例替代或附加地允许掩码写入字段1770的内容直接指定要执行的掩蔽。

立即数(immediate)字段1772—其内容允许对立即数的指定。此字段是可选的，因为在不支持立即数的通用向量友好格式的实现方式中不存在该字段，并且在不使用立即数的指令中不存在该字段。

类别字段1768—其内容区分指令的不同类别。参考图17A至图17B，此字段的内容在类别A和类别B指令之间进行选择。在图17A至图17B中，圆角方形被用于表明特定的值存在于一字段中(例如，分别在图17A至图17B中的针对类别字段1768的类别A 1768A和类别B1768B)。

类别A的指令模板

在类别A的非存储器访问1705指令模板的情况下，阿尔法字段1752被解读为RS字段1752A，其内容区分不同的增强操作类型中的哪一个将被执行(例如，针对无存储器访问、舍入型操作1710和无存储器访问、数据变换型操作1715指令模板，分别指定舍入1752A.1和数据变换1752A.2)，而贝塔字段1754区分指定类型的操作中的哪一个将被执行。在无存储器访问1705指令模板中，不存在缩放字段1760、位移字段1762A和位移缩放字段1762B。

无存储器访问指令模板—完全舍入控制型操作

在无存储器访问完全舍入控制型操作1710指令模板中，贝塔字段1754被解读为舍入控制字段1754A，其(一个或多个)内容提供静态舍入。虽然在所描述的本发明实施例中舍入控制字段1754A包括抑制所有浮点异常(suppress all floating point exceptions，SAE)字段1756和舍入操作控制字段1758，但替代性实施例可支持可将这两个概念都编码到同一字段中，或者可仅具有这些概念/字段中的一者或另一者(例如，可仅具有舍入操作控制字段1758)。

SAE字段1756—其内容区分是否禁用异常事件报告；当SAE字段1756的内容指示启用了抑制时，给定的指令不报告任何种类的浮点异常标志并且不引发任何浮点异常处理程序。

舍入操作控制字段1758—其内容区分将执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、朝零舍入和朝最近舍入)。因此，舍入操作控制字段1758允许了基于每个指令来改变舍入模式。在处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段1750的内容覆写(override)该寄存器值。

无存储器访问指令模板—数据变换型操作

在无存储器访问数据变换型操作1715指令模板中，贝塔字段1754被解读为数据变换字段1754B，其内容区分将执行若干个数据变换中的哪一个(例如，无数据变换、调配、广播)。

在类别A的存储器访问1720指令模板的情况下，阿尔法字段1752被解读为逐出提示字段1752B，其内容区分将使用逐出提示中的哪一个(在图17A中，针对存储器访问暂态1725指令模板和存储器访问非暂态1730指令模板，分别指定暂态1752B.1和非暂态1752B.2)，而贝塔字段1754被解读为数据操纵字段1754C，其内容区分将执行若干个数据操纵操作(也称为基元)中的哪一个(例如，无操纵；广播；源的向上转换；以及目的地的向下转换)。存储器访问1720指令模板包括缩放字段1760，并且可选地包括位移字段1762A或者位移缩放字段1762B。

向量存储器指令利用转换支持执行从存储器的向量加载和向存储器的向量存储。与常规向量指令一样，向量存储器指令以按数据元素的方式从/向存储器传送数据，其中被实际传送的元素由向量掩码的内容来规定，该向量掩码被选择作为写入掩码。

存储器访问指令模板—暂态

暂态数据是可能很快就会被再使用、快到足以受益于进行缓存的数据。然而，这是一种提示，并且不同的处理器可以以不同的方式来实现它，包括完全忽略该提示。

存储器访问指令模板—非暂态

非暂态数据是这样的数据：该数据不太可能很快被再使用、不太可能快到足以受益于在第1级缓存中进行缓存，而应当被优先逐出。然而，这是一种提示，并且不同的处理器可以以不同的方式来实现它，包括完全忽略该提示。

类别B的指令模板

在类别B的指令模板的情况下，阿尔法字段1752被解读为写入掩码控制(Z)字段1752C，其内容区分由写入掩码字段1770控制的写入掩蔽应当是合并还是归零。

在类别B的非存储器访问1705指令模板的情况下，贝塔字段1754的一部分被解读为RL字段1757A，其内容区分将执行不同增强操作类型中的哪一个(例如，针对无存储器访问、写入掩码控制、部分舍入控制型操作1712指令模板以及无存储器访问、写入掩码控制、VSIZE型操作1717指令模板，分别指定舍入1757A.1和向量长度(VSIZE)1757A.2)，而贝塔字段1754的其余部分区分将执行指定类型的操作中的哪一个。在无存储器访问1705指令模板中，不存在缩放字段1760、位移字段1762A和位移缩放字段1762B。

在无存储器访问、写入掩码控制、部分舍入控制型操作1712指令模板中，贝塔字段1754的其余部分被解读为舍入操作字段1759A并且异常事件报告被禁用(给定的指令不报告任何种类的浮点异常标志并且不引发任何浮点异常处置程序)。

舍入操作控制字段1759A—正如舍入操作控制字段1758一样，其内容区分将执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、朝零舍入和朝最近舍入)。因此，舍入操作控制字段1759A允许了基于每个指令而改变舍入模式。在处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段1750的内容覆写该寄存器值。

在无存储器访问、写入掩码控制、VSIZE型操作1717指令模板中，贝塔字段1754的其余部分被解读为向量长度字段1759B，其内容区分将对若干个数据向量长度中的哪一个进行执行(例如，128、256或512字节)。

在类别B的存储器访问1720指令模板的情况下，贝塔字段1754的一部分被解读为广播字段1757B，其内容区分是否将执行广播型数据操纵操作，而贝塔字段1754的其余部分被解读为向量长度字段1759B。存储器访问1720指令模板包括缩放字段1760，并且可选地包括位移字段1762A或者位移缩放字段1762B。

关于通用向量友好指令格式1700，完整操作码字段1774被示出为包括格式字段1740、基本操作字段1742、以及数据元素宽度字段1764。虽然示出了完整操作码字段1774包括所有这些字段的一个实施例，但完整操作码字段1774在不全部支持这些字段的实施例中包括比所有这些字段更少的字段。完整操作码字段1774提供操作代码(操作码)。

增强操作字段1750、数据元素宽度字段1764以及写入掩码字段1770允许了这些特征以通用向量友好指令格式基于每个指令而被指定。

写入掩码字段和数据元素宽度字段的组合创建了类型化指令，因为它们允许基于不同的数据元素宽度来应用掩码。

在类别A和类别B内找到的各种指令模板在不同的情形中是有益的。在本发明的一些实施例中，不同的处理器或处理器内不同的核可仅支持类别A、仅支持类别B、或者支持两个类别。例如，针对通用计算目的的高性能通用乱序核可仅支持类别B，主要针对图形和/或科学(吞吐量)计算目的的核可仅支持类别A，而针对这两个目的的核可支持这两个类别(当然，具有来自两个类别的模板和指令的某种混合、但不具有来自两个类别的全部模板和指令的核是落入本发明的范围内的)。此外，单个处理器可包括多个核，所有这些核支持相同类别或者其中不同的核支持不同的类别。例如，在具有分离的图形和通用核的处理器中，主要针对图形和/或科学计算目的的图形核之一可以仅支持类别A，而通用核中的一个或多个可以是仅支持类别B的针对通用计算目的的具有乱序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括支持类别A和类别B两者的一个或多个通用有序或乱序核。当然，在本发明的不同实施例中，来自一个类别的特征也可被实现在另一类别中。以高级别语言编写的程序将被置于(例如，被及时编译或静态编译到)各种不同的可执行形式，包括：1)仅具有由目标处理器支持的(一个或多个)类别的指令以便执行的形式；或者2)具有使用所有类别的指令的不同组合编写的替代性例程并且具有控制流程代码的形式，该控制流程代码基于当前在执行代码的处理器所支持的指令来选择用于执行的例程。

示例性特定向量友好指令格式

图18A至图18C是图示了根据本发明的实施例的示例性特定向量友好指令格式的框图。图18A示出了在如下意义上特定的特定向量友好指令格式1800：其指定了字段的位置、大小、解读、以及顺序、以及这些字段中的一些的值。特定向量友好指令格式1800可被用于扩展x86指令集，因而字段中的一些与现有的x86指令集及其扩展(例如，AVX)中使用的那些字段相似或相同。此格式与具有扩展的现有x86指令集的前缀编码字段、真实操作码字节字段、MOD R/M字段、SIB字段、位移字段以及立即数字段保持一致。图示出了来自图18A至图18C的字段所映射到的来自图17A至图17B的字段。

应当理解，虽然出于说明的目的参考在通用向量友好指令格式1700的情境下的特定向量友好指令格式1800描述了本发明的实施例，但除非有声明，否则本发明不限于该特定向量友好指令格式1800。例如，通用向量友好指令格式1700对于各种字段设想了各种可能的大小，而特定向量友好指令格式1800被示出为具有特定大小的字段。作为具体示例，虽然数据元素宽度字段1764在特定向量友好指令格式1800中被示出为一比特字段，但本发明不限于此(也就是说，通用向量友好指令格式1700设想了数据元素宽度字段1764的其他大小)。

通用向量友好指令格式1700包括下文按图18A中所示的顺序列出的以下字段。

EVEX前缀(字节0-3)1802—被编码为四字节形式。

格式字段1740(EVEX字节0，比特[7:0])—第一字节(EVEX字节0)是格式字段1740并且其包含0x62(在本发明的一个实施例中用于区分向量友好指令格式的唯一值)。

第二至第四字节(EVEX字节1-3)包括提供特定能力的若干个比特字段。

REX字段1805(EVEX字节1，比特[7-5])—由EVEX.R比特字段(EVEX字节1，比特[7]–R)、EVEX.X比特字段(EVEX字节1，比特[6]–X)、和EVEX.B(字节1，比特[5]–B)构成。EVEX.R、EVEX.X和EVEX.B比特字段提供与相应的VEX比特字段相同的功能，并且使用1s反码(1scomplement)形式来编码，即，ZMM0被编码为1111B，ZMM15被编码为0000B。指令的其他字段如本领域中已知的那样对寄存器索引的较低三个比特进行编码(rrr、xxx和bbb)，因此可通过添加EVEX.R、EVEX.X和EVEX.B来形成Rrrr、Xxxx和Bbbb。

REX'字段1810—这是REX'字段1810的第一部分并且是用于对扩展32寄存器集合的高16或低16进行编码的EVEX.R'比特字段(EVEX字节1，比特[4]-R')。在本发明的一个实施例中，这个比特以及如下所示的其他比特以比特反转格式被存储以与BOUND指令相区分(在公知的x86 32比特模式中)，BOUND指令的真实操作码字节是62，但不在MOD R/M字段(下文描述)中接受MOD字段中的11的值；本发明的替代性实施例不以反转格式存储这个比特和下面指示的其他比特。值1被用于对低16寄存器进行编码。换言之，R'Rrrr是通过组合EVEX.R'、EVEX.R和来自其他字段的其他RRR而形成的。

操作码映射字段1815(EVEX字节1，比特[3:0]–mmmm)—其内容编码了所暗示的前导操作码字节(0F、0F 38、或0F 3)。

数据元素宽度字段1764(EVEX字节2，比特[7]–W)—由符号EVEX.W表示。EVEX.W被用于定义数据类型的粒度(大小)(32比特数据元素或64比特数据元素)。

EVEX.vvvv 1820(EVEX字节2，比特[6:3]-vvvv)—EVEX.vvvv的作用可包括以下项：1)EVEX.vvvv编码了以反转(1s反码)形式指定的第一源寄存器操作对象，并且对于具有2个或更多个源操作对象的指令是有效的；2)EVEX.vvvv编码了针对某些向量移位以1s反码形式指定的目的地寄存器操作对象；或者3)EVEX.vvvv不编码任何操作对象，该字段被预留并且应当包含1111b。因此，EVEX.vvvv字段1820编码了以反转(1s反码)形式存储的第一源寄存器指定符的4个低阶比特。取决于指令，额外的不同EVEX比特字段被用于将指定符大小扩展到32个寄存器。

EVEX.U 1768类别字段(EVEX字节2，比特[2]-U)—如果EVEX.U＝0，则其指示类别A或EVEX.U0；如果EVEX.U＝1，则其指示类别B或者EVEX.U1。

前缀编码字段1825(EVEX字节2，比特[1:0]-pp)—为基本操作字段提供额外比特。除了针对采取EVEX前缀格式的传统SSE指令提供支持以外，这还具有使SIMD前缀紧缩的益处(EVEX前缀仅需要2个比特，而不是需要一字节来表达SIMD前缀)。在一个实施例中，为了支持使用采取传统格式和采取EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令，这些传统SIMD前缀被编码到SIMD前缀编码字段中；并且在运行时被扩展成传统SIMD前缀，然后才被提供到解码器的PLA(因此PLA可执行传统格式和EVEX格式的这些传统指令，而无需修改)。虽然较新的指令可直接使用EVEX前缀编码字段的内容作为操作码扩展，但某些实施例为了一致性以类似的方式扩展、但允许这些传统SIMD前缀指定不同的含义。替代性实施例可以重设计PLA来支持2比特SIMD前缀编码，从而不需要扩展。

阿尔法字段1752(EVEX字节3，比特[7]—EH；也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写入掩码控制、以及EVEX.N；也用α来图示)—如前所述，此字段是依上下文而定的。

贝塔字段1754(EVEX字节3，比特[6:4]–SSS；也称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；也用βββ来图示)—如前所述，此字段是依上下文而定的。

REX'字段1810—这是REX'字段的剩余部分并且是可用于对扩展32寄存器集合的高16或低16进行编码的EVEX.V'比特字段(EVEX字节3，比特[3]-V')。这个比特以比特反转格式来存储。值1被用于对低16寄存器进行编码。换言之，V'VVVV是通过组合EVEX.V'、EVEX.vvvv而形成的。

写入掩码字段1770(EVEX字节3，比特[2:0]-kkk)—其内容指定如前所述的写入掩码寄存器中的寄存器的索引。在本发明的一个实施例中，特定值EVEX.kkk＝000具有暗示针对特定指令未使用写入掩码的特殊行为(这可通过各种方式来实现，包括使用被硬连线到全一的写入掩码或者绕过掩蔽硬件的硬件)。

真实操作码字段1830(字节4)也被称为操作码字节。在这个字段中指定操作码的一部分。

MOD R/M字段1840(字节5)包括MOD字段1842、Reg字段1844、以及R/M字段1846。如前所述，MOD字段1842的内容区分存储器访问和非存储器访问操作。Reg字段1844的作用可被总结成两个情形：编码目的地寄存器操作对象或者源寄存器操作对象，或者被作为操作码扩展来对待，而不被用于编码任何指令操作对象。R/M字段1846的作用可包括以下项：编码引用存储器地址的指令操作对象，或者编码目的地寄存器操作对象或源寄存器操作对象。

缩放、索引、基数(Scale,Index,Base，SIB)字节(字节6)—如前所述，缩放字段1850的内容被用于存储器地址生成。SIB.xxx 1854和SIB.bbb 1856—先前已关于寄存器索引Xxxx和Bbbb提及了这些字段的内容。

位移字段1762A(字节7-10)—当MOD字段1842包含10时，字节7-10是位移字段1762A，并且其工作方式与传统32比特位移(disp32)相同并且以字节粒度工作。

位移因子字段1762B(字节7)—当MOD字段1842包含01时，字节7是位移因子字段1762B。此字段的位置与传统x86指令集8比特位移(disp8)的位置相同，其以字节粒度工作。由于disp8被符号扩展，所以其仅能在-128和127字节偏移量之间寻址；就64字节缓存线而言，disp8使用8个比特，这8个比特可被设置为仅四个真正有用的值-128、-64、0和64；由于经常需要更大的范围，所以使用disp32；然而，disp32要求4个字节。与disp8和disp32不同，位移因子字段1762B是对disp8的重解读；当使用位移因子字段1762B时，实际位移由位移因子字段的内容乘以存储器操作对象访问的大小(N)来决定。这种类型的位移被称为disp8*N。这减小了平均指令长度(单个字节被用于位移，但具有大得多的范围)。这种压缩的位移是基于如下假设的：有效位移是存储器访问的粒度的倍数，并且因此，地址偏移量的冗余低阶比特不需要被编码。换言之，位移因子字段1762B代替了传统x86指令集8比特位移。因此，位移因子字段1762B按与x86指令集8比特位移相同的方式被编码(因此在ModRM/SIB编码规则中没有变化)，唯一例外是disp8被超载到disp8*N。换言之，在编码规则或编码长度方面没有变化，而仅在硬件对位移值的解读方面有变化(硬件需要按存储器操作对象的大小来缩放位移以获得按字节的地址偏移量)。立即数字段1772如前所述那样操作。

完整操作码字段

图18B是图示了根据本发明的一个实施例的特定向量友好指令格式1800的构成完整操作码字段1774的字段的框图。具体而言，完整操作码字段1774包括格式字段1740、基本操作字段1742、以及数据元素宽度(W)字段1764。基本操作字段1742包括前缀编码字段1825、操作码图谱字段1815、以及真实操作码字段1830。

寄存器索引字段

图18C是图示了根据本发明的一个实施例的特定向量友好指令格式1800的构成寄存器索引字段1744的字段的框图。具体而言，寄存器索引字段1744包括REX字段1805、REX'字段1810、MODR/M.reg字段1844、MODR/M.r/m字段1846、VVVV字段1820、xxx字段1854、以及bbb字段1856。

增强操作字段

图18D是图示了根据本发明的一个实施例的特定向量友好指令格式1800的构成增强操作字段1750的字段的框图。当类别(U)字段1768包含0时，其表示EVEX.U0(类别A1768A)；当其包含1时，其表示EVEX.U1(类别B 1768B)。当U＝0并且MOD字段1842包含11时(表示无存储器访问操作)，阿尔法字段1752(EVEX字节3，比特[7]–EH)被解读为rs字段1752A。当rs字段1752A包含1时(舍入1752A.1)，贝塔字段1754(EVEX字节3，比特[6:4]-SSS)被解读为舍入控制字段1754A。舍入控制字段1754A包括一比特SAE字段1756和两比特舍入操作字段1758。当rs字段1752A包含0时(数据变换1752A.2)，贝塔字段1754(EVEX字节3，比特[6:4]-SSS)被解读为三比特数据变换字段1754B。当U＝0并且MOD字段1842包含00、01或10时(表示存储器访问操作)，阿尔法字段1752(EVEX字节3，比特[7]–EH)被解读为逐出提示(eviction hint，EH)字段1752B并且贝塔字段1754(EVEX字节3，比特[6:4]-SSS)被解读为三比特数据操纵字段1754C。

当U＝1时，阿尔法字段1752(EVEX字节3，比特[7]–EH)被解读为写入掩码控制(Z)字段1752C。当U＝1并且MOD字段1842包含11时(表示无存储器访问操作)，贝塔字段1754的一部分(EVEX字节3，比特[4]–S₀)被解读为RL字段1757A；当其包含1(舍入1757A.1)时，贝塔字段1754的其余部分(EVEX字节3，比特[6-5]-S_2-1)被解读为舍入操作字段1759A，而当RL字段1757A包含0(VSIZE 1757.A2)时，贝塔字段1754的其余部分(EVEX字节3，比特[6-5]-S_2-1)被解读为向量长度字段1759B(EVEX字节3，比特[6-5]-L_1-0)。当U＝1并且MOD字段1842包含00、01或10时(表示存储器访问操作)，贝塔字段1754(EVEX字节3，比特[6:4]-SSS)被解读为向量长度字段1759B(EVEX字节3，比特[6-5]-L_1-0)和广播字段1757B(EVEX字节3，比特[4]-B)。

示例性寄存器架构

图19是根据本发明的一个实施例的寄存器架构1900的框图。在图示的实施例中，存在32个512比特宽的向量寄存器1910；这些寄存器被称为zmm0至zmm31。低16zmm寄存器的低阶256比特被覆盖在寄存器ymm0-16上。低16zmm寄存器的低阶128比特(ymm寄存器的低阶128比特)被覆盖在寄存器xmm0-15上。特定向量友好指令格式1800如以下表格中所示在这些覆盖的寄存器堆上进行操作。

换言之，向量长度字段1759B在最大长度和一个或多个其他更短的长度之间进行选择，其中每个这种更短的长度是前一长度的一半长度；并且没有向量长度字段1759B的指令模板针对最大向量长度进行操作。此外，在一个实施例中，特定向量友好指令格式1800的类别B指令模板针对紧缩或标量单/双精度浮点数据和紧缩或标量整数数据进行操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作；更高阶数据元素位置或者被保持为与其在该指令之前相同、或者被归零，这取决于实施例。

写入掩码寄存器1915—在图示的实施例中，存在8个写入掩码寄存器(k0至k7)，每个的大小是64比特。在替代性实施例中，写入掩码寄存器1915的大小是16比特。如前所述，在本发明的一个实施例中，向量掩码寄存器k0不能被用作写入掩码；当通常将会指示k0的编码被用于写入掩码时，其选择硬连线的写入掩码0xFFFF，这实际上对于该指令禁用了写入掩蔽。

通用寄存器1925—在图示的实施例中，存在十六个64比特通用寄存器，它们与现有的x86寻址模式一起被用于寻址存储器操作对象。这些寄存器用名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8至R15来引用。

标量浮点堆栈寄存器堆(x87堆栈)1945(在其上化名了MMX紧缩整数平坦寄存器堆1950)—在图示的实施例中，x87堆栈是用于使用x87指令集扩展针对32/64/80比特浮点数据执行标量浮点操作的八元素堆栈；而MMX寄存器被用于针对64比特紧缩整数数据执行操作，以及用于针对在MMX和XMM寄存器之间执行的一些操作来保持操作对象。

本发明的替代性实施例可以使用更宽或更窄的寄存器。此外，本发明的替代性实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例性核架构、处理器和计算机架构

可以按不同的方式、为了不同的目的、在不同的处理器中实现处理器核。例如，这些核的实现方式可以包括：1)针对通用计算目的的通用有序核；2)针对通用计算目的的高性能通用乱序核；3)主要针对图形和/或科学(吞吐量)计算目的的专用核。不同处理器的实现方式可以包括：1)CPU，其包括针对通用计算目的的一个或多个通用有序核和/或针对通用计算目的的一个或多个通用乱序核；以及2)协处理器，其包括主要针对图形和/或科学(吞吐量)目的的一个或多个专用核。这样的不同处理器导致不同的计算机系统架构，这些架构可包括：1)协处理器与CPU位于分离的芯片上；2)协处理器与CPU位于同一封装中的分离的管芯上；3)协处理器与CPU位于同一管芯上(在此情况下，这种协处理器有时被称为专用逻辑(例如，集成图形和/或科学(吞吐量)逻辑)，或者被称为专用核)；以及4)片上系统，其可在同一管芯上包括所描述的CPU(有时称为(一个或多个)应用核或者(一个或多个)应用处理器)、上述的协处理器、以及额外的功能。接下来描述示例性核架构，然后是对示例性处理器和计算机架构的描述。

示例性核架构

有序和乱序核框图

图20A是图示了根据本发明的实施例的示例性有序管线以及示例性寄存器重命名、乱序发出/执行管线两者的框图。图20B图示了根据本发明的实施例的待被包括在处理器中的有序架构核的示例性实施例以及示例性寄存器重命名、乱序发出/执行架构核两者的框图。图20A至图20B中的实线框图示了有序管线和有序核，而可选地添加的虚线框图示了寄存器重命名、乱序发出/执行管线和核。考虑到有序方面是乱序方面的子集，将描述乱序方面。

在图20A中，处理器管线2000包括取得阶段2002、长度解码阶段2004、解码阶段2006、分配阶段2008、重命名阶段2010、调度(也称为调遣或发出)阶段2012、寄存器读取/存储器读取阶段2014、执行阶段2016、写回/存储器写入阶段2018、异常处置阶段2022、以及提交阶段2024。

图20B示出了处理器核2090，该处理器核2090包括与执行引擎单元2050耦合的前端单元2030，并且两者都耦合到存储器单元2070。核2090可以是精简指令集计算(reducedinstruction set computing，RISC)核、复杂指令集计算(complex instruction setcomputing，CISC)核、超长指令字(very long instruction word，VLIW)核、或者混合或替代性核类型。作为另外一个选项，核2090可以是专用核，例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(general purpose computing graphics processingunit，GPGPU)核、图形核等。

前端单元2030包括分支预测单元2032，其耦合到指令缓存单元2034，该指令缓存单元耦合到指令转译后备缓冲器(translation lookaside buffer，TLB)2036，该TLB耦合到指令取得单元2038，该指令取得单元耦合到解码单元2040。解码单元2040(或解码器)可以对指令进行解码，并且生成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号作为输出，这些微操作、微代码入口点、微指令、其他指令或其他控制信号是从原始指令解码来的，或者以其他方式反映原始指令，或者是从原始指令得出的。可使用各种不同的机制来实现解码单元2040。适当机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(programmable logic array，PLA)、微代码只读存储器(read only memory，ROM)等。在一个实施例中，核2090包括微代码ROM或其他介质，其为某些宏指令存储微代码(例如，在解码单元2040中或者以其他方式在前端单元2030内)。解码单元2040耦合到执行引擎单元2050中的重命名/分配器单元2052。

执行引擎单元2050包括重命名/分配器单元2052，其耦合到引退单元2054和一组一个或多个调度器单元2056。(一个或多个)调度器单元2056表示任意数目的不同调度器，包括预留站、中央指令窗口等。(一个或多个)调度器单元2056耦合到(一个或多个)实体寄存器堆单元2058。实体寄存器堆单元2058中的每一者表示一个或多个实体寄存器堆，这些实体寄存器堆中的不同实体寄存器堆存储一个或多个不同的数据类型，例如标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点、状态(例如，作为待执行的下一指令的地址的指令指针)等。在一个实施例中，实体寄存器堆单元2058包括向量寄存器单元、写入掩码寄存器单元、以及标量寄存器单元。这些寄存器单元可提供架构式向量寄存器、向量掩码寄存器、以及通用寄存器。(一个或多个)实体寄存器堆单元2058与引退单元2054重叠以图示出可用来实现寄存器重命名和乱序执行的各种方式(例如，使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器堆；使用(一个或多个)未来堆、(一个或多个)历史缓冲器、以及(一个或多个)引退寄存器堆；使用寄存器图谱和寄存器的池等)。引退单元2054和(一个或多个)实体寄存器堆单元2058耦合到(一个或多个)执行集群2060。(一个或多个)执行集群2060包括一组一个或多个执行单元2062和一组一个或多个存储器访问单元2064。执行单元2062可针对各种类型的数据(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行各种操作(例如，移位、加法、减法、乘法)。虽然一些实施例可包括专用于特定功能或功能集合的若干个执行单元，但其他实施例可包括仅一个执行单元、或者均执行所有功能的多个执行单元。(一个或多个)调度器单元2056、(一个或多个)实体寄存器堆单元2058、以及(一个或多个)执行集群2060被示出为可以是多个，因为某些实施例针对某些类型的数据/操作而创建单独的管线(例如，标量整数管线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点管线、和/或存储器访问管线，它们各自具有其自己的调度器单元、实体寄存器堆单元和/或执行集群—并且在单独的存储器访问管线的情况下，实现了仅此管线的执行集群具有(一个或多个)存储器访问单元2064的某些实施例)。还应当理解，在使用分离的管线的情况下，这些管线中的一个或多个可以是乱序发出/执行的，而其余的是有序的。

该组存储器访问单元2064耦合到存储器单元2070，该存储器单元包括数据TLB单元2072，该数据TLB单元耦合到数据缓存单元2074，该数据缓存单元耦合到第2级(L2)缓存单元2076。在一个示例性实施例中，存储器访问单元2064可包括加载单元、存储地址单元、以及存储数据单元，它们中的每一者均耦合到存储器单元2070中的数据TLB单元2072。指令缓存单元2034还耦合到存储器单元2070中的第2级(L2)缓存单元2076。L2缓存单元2076耦合到一个或多个其他级别的缓存并且最终耦合到主存储器。

作为示例，示例性寄存器重命名、乱序发出/执行核架构可如下实现管线2000：1)指令取得2038执行取得阶段2002和长度解码阶段2004；2)解码单元2040执行解码阶段2006；3)重命名/分配器单元2052执行分配阶段2008和重命名阶段2010；4)(一个或多个)调度器单元2056执行调度阶段2012；5)(一个或多个)实体寄存器堆单元2058和存储器单元2070执行寄存器读取/存储器读取阶段2014；执行集群2060执行执行阶段2016；6)存储器单元2070和(一个或多个)实体寄存器堆单元2058执行写回/存储器写入阶段2018；7)在异常处置阶段2022中可涉及各种单元；并且8)引退单元2054和(一个或多个)实体寄存器堆单元2058执行提交阶段2024。

核2090可支持一个或多个指令集(例如，x86指令集(具有已随着较新版本而添加的一些扩展)；加州森尼维尔市的MIPS技术公司的MIPS指令集；加州森尼维尔市的ARM控股公司的ARM指令集(具有可选的额外扩展，例如，NEON))，其包括本文描述的(一个或多个)指令。在一个实施例中，核2090包括用于支持紧缩数据指令集扩展(例如，AVX1、AVX2)的逻辑，从而允许使用紧缩数据来执行由许多多媒体应用使用的操作。

应当理解，核可支持多线程处理(执行操作或线程的两个或更多个并行集合)，并且可按各种方式来支持多线程处理，包括时间切片式多线程处理、同时多线程处理(其中单个实体核针对该实体核同时进行多线程处理的每个线程提供逻辑核)、或者这些的组合(例如，时间切片式取得和解码，然后是同时多线程处理，例如像

Hyperthreading技术中那样)。

虽然是在乱序执行的上下文中描述寄存器重命名的，但应当理解，寄存器重命名可被用在有序架构中。虽然处理器的图示实施例还包括分离的指令和数据缓存单元2034/2074和共享的L2缓存单元2076，但替代性实施例可针对指令和数据两者具有单个内部缓存，例如，第1级(L1)内部缓存，或者多级别的内部缓存。在一些实施例中，系统可包括内部缓存与位于核和/或处理器外部的外部缓存的组合。可替代地，所有缓存都可位于核和/或处理器的外部。

具体示例性有序核架构

图21A至图21B图示了更具体的示例性有序核架构的框图，该核将作为芯片中的若干个逻辑块(包括相同类型和/或不同类型的其他核)之一。逻辑块通过高带宽互连网络(例如，环状网络)与某些固定功能逻辑、存储器I/O接口和其他必要I/O逻辑进行通信，这取决于应用。

图21A是根据本发明的实施例的单个处理器核及其与片上互连网络2102以及与其第2级(L2)缓存本地子集2104的连接的框图。在一个实施例中，指令解码器2100支持具有紧缩数据指令集扩展的x86指令集。L1缓存2106允许低延时访问，以将存储器缓存到标量和向量单元中。虽然在一个实施例中(为了简化设计)标量单元2108和向量单元2110使用分离的寄存器集合(分别是标量寄存器2112和向量寄存器2114)、并且在它们之间传送的数据被写入到存储器、然后被从第1级(L1)缓存2106读回，但本发明的替代性实施例可以使用不同的方案(例如，使用单个寄存器集合或者包括允许数据在两个寄存器堆之间传送而不被写入和读回的通信路径)。

L2缓存的本地子集2104是全局L2缓存的一部分，全局L2缓存被划分成单独的本地子集，每处理器核有一个本地子集。每个处理器核具有到其自己的L2缓存本地子集2104的直接访问路径。由处理器核读取的数据被存储在其L2缓存子集2104中并且可被迅速访问，该访问与其他处理器核访问其自己的本地L2缓存子集并行进行。由处理器核写入的数据被存储在其自己的L2缓存子集2104中并且在必要时被从其他子集冲刷出。环状网络确保了共享数据的一致性。环状网络是双向的，以允许诸如处理器核、L2缓存和其他逻辑块之类的代理在芯片内与彼此通信。每个环状数据路径在每方向上是1012比特宽的。

图21B是根据本发明的实施例的图21A中的处理器核的一部分的扩展视图。图21B包括L1缓存2104的L1数据缓存2106A部分，以及关于向量单元2110和向量寄存器2114的更多细节。具体而言，向量单元2110是16宽的向量处理单元(vector processing unit，VPU)(参见16宽ALU 2128)，其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持利用调配单元2120调配寄存器输入、利用数值转换单元2122A-B进行的数值转换、以及利用复制单元2124对存储器输入进行的复制。写入掩码寄存器2126允许激活(assert)结果向量写入。

图22是根据本发明的实施例的处理器2200的框图，处理器2200可具有多于一个核，可具有集成的存储器控制器并且可具有集成的图形。图22中的实线框图示了具有单个核2202A、系统代理2210和一组一个或多个总线控制器单元2216的处理器2200，而可选地添加的虚线框图示了具有多个核2202A-N、系统代理单元2210中的一组一个或多个集成存储器控制单元2214、以及专用逻辑2208的替代性处理器2200。

因此，处理器2200的不同实现方式可包括：1)CPU，其专用逻辑2208是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，并且核2202A-N是一个或多个通用核(例如，通用有序核、通用乱序核或者两者的组合)；2)协处理器，其核2202A-N是主要针对图形和/或科学(吞吐量)目的的大量的专用核；以及3)协处理器，其核2202A-N是大量的通用有序核。因此，处理器2200可以是通用处理器、协处理器或专用处理器，例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量集成众核(manyintegrated core，MIC)协处理器(包括30个或更多个核)、嵌入式处理器等。该处理器可被实现在一个或多个芯片上。处理器2200可以是一个或多个衬底的一部分和/或可利用若干个工艺技术中的任何一者被实现在一个或多个衬底上，这些技术例如是BiCMOS、CMOS或NMOS。

存储器层次体系包括核内的一级或多级缓存、一组或一个或多个共享缓存单元2206、以及耦合到该组集成存储器控制器单元2214的外部存储器(未示出)。该组共享缓存单元2206可包括一个或多个中间级别缓存(例如，第2级(L2)、第3级(L3)、第4级(4)或者其他级别的缓存)、最后一级缓存(last level cache，LLC)、和/或这些的组合。虽然在一个实施例中基于环的互连单元2212互连集成图形逻辑2208、该组共享缓存单元2206以及系统代理单元2210/(一个或多个)集成存储器控制器单元2214，但替代性实施例还可使用任意数目的公知技术来互连这种单元。在一个实施例中，在一个或多个缓存单元2206和核2202A-N之间维持一致性。

在一些实施例中，核2202A-N中的一个或多个能够进行多线程处理。系统代理2210包括协调和操作核2202A-N的那些组件。系统代理单元2210可包括例如功率控制单元(power control unit，PCU)和显示单元。PCU可以是或者可以包括对核2202A-N和集成图形逻辑2208的功率状态进行调节所需要的逻辑和组件。显示单元用于驱动一个或多个在外部连接的显示器。

核2202A-N就架构指令集而言可以是同构的或者异构的；也就是说，核2202A-N中的两个或更多个可以能够执行同一指令集，而其他的核可以仅能够执行该指令集的子集或者不同的指令集。

示例性计算机架构

图23至图24是示例性计算机架构的框图。本领域中已知的用于膝上型计算机、桌面型计算机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(digital signal processor，DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备、以及各种其他电子设备的其他系统设计和配置也是适合的。总之，能够包含如本文公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般是适合的。

现在参考图23，示出的是根据本发明的一个实施例的系统2300的框图。系统2300可包括一个或多个处理器2310、2315，它们耦合到控制器中枢2320。在一个实施例中，控制器中枢2320包括图形存储器控制器中枢(graphics memory controller hub，GMCH)2390和输入/输出中枢(Input/Output Hub，IOH)2350(它们可位于分离的芯片上)；GMCH 2390包括与存储器2340和协处理器2345耦合的存储器和图形控制器；IOH 2350将输入/输出(I/O)设备2360耦合到GMCH 2390。可替代地，存储器和图形控制器中的一者或两者被集成在处理器内(如本文所述)，存储器2340和协处理器2345直接耦合到处理器2310，并且控制器中枢2320与IOH 2350位于单个芯片中。

额外的处理器2315的可选性在图23中用虚线表示。每个处理器2310、2315可包括本文描述的处理核中的一个或多个，并且可以是处理器2200的某个版本。

存储器2340可例如是动态随机存取存储器(dynamic random access memory，DRAM)、相变存储器(phase change memory，PCM)、或者两者的组合。对于至少一个实施例，控制器中枢2320经由多点分支总线(例如，前端总线(frontside bus，FSB))、点到点接口(例如，快速路径互连(QuickPath Interconnect，QPI))、或者类似的连接2395，来与(一个或多个)处理器2310、2315通信。

在一个实施例中，协处理器2345是专用处理器，例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中枢2320可包括集成的图形加速器。

在实体资源2310、2315之间，就包括架构特性、微架构特性、热特性、功耗特性等在内的价值度量的范围而言可以有各种差异。

在一个实施例中，处理器2310执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器2310将这些协处理器指令识别为应当由附接的协处理器2315执行的类型。因此，处理器2310在协处理器总线或其他互连结构上向协处理器2315发出这些协处理器指令(或者表示协处理器指令的控制信号)。(一个或多个)协处理器2315接受并且执行接收到的协处理器指令。

现在参考图24，示出的是根据本发明的实施例的SoC 2400的框图。图24中的相似元素具有相似的标号。此外，虚线框是更先进SoC上的可选特征。在图24中，(一个或多个)互连单元2402耦合到：应用处理器2410，其包括一组一个或多个核202A-N和(一个或多个)共享缓存单元2206；系统代理单元2210；(一个或多个)总线控制器单元2216；(一个或多个)集成存储器控制器单元2214；一组或一个或多个协处理器2420，其可包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器；静态随机存取存储器(static random accessmemory，SRAM)单元2430；直接存储器访问(direct memory access，DMA)单元2432；以及显示单元2440，用于耦合到一个或多个外部显示器。在一个实施例中，(一个或多个)协处理器2420包括专用处理器，例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

可以用硬件、软件、固件或者这样的实现方案的组合来实现本文公开的机制的实施例。本发明的实施例可被实现为在包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备、以及至少一个输出设备的可编程系统上执行的计算机程序或程序代码。

程序代码可被应用到输入指令以执行本文描述的功能并且生成输出信息。输出信息可按已知的方式被应用到一个或多个输出设备。对于本申请而言，处理系统包括任何具有处理器的系统，例如：数字信号处理器(digital signal processor，DSP)、微控制器、专用集成电路(application specific integrated circuit，ASIC)、或者微处理器。

可以用高级别过程式或面向对象的编程语言来实现程序代码，以与处理系统进行通信。如果希望，还可以用汇编或机器语言来实现程序代码。实际上，本文描述的机制在范围上不限于任何特定的编程语言。在任何情况下，该语言可以是编译语言或者解释语言。

至少一个实施例的一个或多个方面可由被存储在机器可读介质上的表示处理器内的各种逻辑的代表性指令来实现，这些指令当被机器读取时，使得该机器制作逻辑来执行本文描述的技术。这种被称为“IP核”的表现形式可被存储在有形机器可读介质上并且被提供到各种客户或制造设施，以加载到实际制作该逻辑或处理器的制作机器中。

这种机器可读存储介质可包括但不限于由机器或设备制造或形成的物品(article)的非暂态有形布置，包括诸如以下项之类的存储介质：硬盘、任何其他类型的盘(包括软盘、光盘、致密盘只读存储器(compact disk read-only memory，CD-ROM)、可改写致密盘(compact disk rewritable，CD-RW)、以及磁光盘)、半导体设备(例如，只读存储器(read-only memory，ROM)，诸如动态随机存取存储器(dynamic random access memory，DRAM)、静态随机存取存储器(static random access memory，SRAM)之类的随机存取存储器(random access memory，RAM)，可擦除可编程只读存储器(erasable programmableread-only memory，EPROM)，闪速存储器，电可擦除可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)，相变存储器(phase changememory，PCM))、磁卡或光卡、或者适合用于存储电子指令的任何其他类型的介质。

因此，本发明的实施例还包括非暂态有形机器可读介质，其包含指令或者包含定义本文描述的结构、电路、装置、处理器和/或系统特征的设计数据，例如，硬件描述语言(Hardware Description Language，HDL)。这种实施例还可被称为程序产品。

仿真(包括二进制转译、代码变形等)

在一些情况下，指令转换器可以被用于将指令从源指令集体系结构转换到目标指令集体系结构。例如，指令转换器可以将指令转译(例如，利用静态二进制转译、包括动态编译的动态二进制转译)、变形、仿真或者以其他方式转换到要被核心处理的一个或多个其他指令。可以用软件、硬件、固件或者其组合来实现指令转换器。指令转换器可以在处理器上、在处理器外、或者一部分在处理器上而一部分在处理器外。

图25的框图图示了根据示例的软件指令转换器的使用，该软件指令转换器用于将源ISA中的二进制指令转换成目标ISA中的二进制指令。在图示的示例中，指令转换器是软件指令转换器，但可替代地，可以用软件、固件、硬件或者其各种组合来实现指令转换器。图25示出了高级语言2502的程序可以被利用第一ISA编译器2504编译以生成第一ISA二进制代码2506，该代码可以由具有至少一个第一ISA核心的处理器2516原生执行。例如，第一ISA可以是

X86 ISA。具有至少一个第一ISA核心的处理器2516代表任何这样的处理器：这种处理器能够通过兼容地执行或以其他方式处理(1)第一ISA的实质部分或者(2)以在具有至少一个第一ISA核心的

处理器上运行为目标的应用或其他软件的目标代码版本，来执行与具有至少一个第一ISA核心的Intel处理器基本上相同的功能，以便实现与具有至少一个第一ISA核心的处理器基本上相同的结果。第一ISA编译器2504代表可操作来生成第一ISA二进制代码2506(例如，目标代码)的编译器，该第一ISA二进制代码在进行或不进行额外的链接处理的情况下能够在具有至少一个第一ISA核心的处理器2516上被执行。类似地，图25示出了高级语言2502的程序可以被利用替代性ISA编译器2508来编译以生成替代性ISA二进制代码2510，该代码可以由没有第一ISA核心的处理器2514原生执行。指令转换器2512被用来将第一ISA二进制代码2506转换成可以由没有第一ISA核心的处理器2514原生执行的代码。这种转换后的代码不一定会与替代性ISA二进制代码2510相同；然而，转换后的代码将实现总的操作，并由来自该替代性ISA的指令构成。从而，指令转换器2512代表软件、固件、硬件或它们的组合，其通过仿真、模拟或任何其他过程，允许不具有第一ISA处理器或核心的处理器或其他电子设备执行第一ISA二进制代码2506。

选择主机系统中的电源

图26—示例系统

现在参考图26，示出的是根据一个或多个实施例的系统2600的框图。如图所示，系统2600可包括与外围设备2660操作性耦合的主机2610。在一些实施例中，主机2610可以是计算设备或平台(例如，膝上型计算机、桌面型计算机、服务器、家电、平板设备等)。此外，外围设备2660可以是以下外围设备：例如，蜂窝电话、个人数字助理、媒体播放器、便携式计算机、平板设备等。

如图26所示，主机2610可包括处理器2620、主机功率控制单元(power controlunit，PCU)2630、开关2640、正常电源单元(power supply unit，PSU)2650、待机PSU 2655、以及总线接口2690A。主机PCU 2630可包括充电电路2635。处理器2620可以是硬件处理设备(例如，中央处理单元(CPU)、片上系统(SoC)等)。外围设备2660可包括设备PSU 2670、电池2680、以及总线接口2690B。此外，虽然在图26中没有示出，但主机2610和外围设备2660可包括其他组件。在各种实施例中，主机PCU 2630和/或充电电路2635可以用硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)或者其组合来实现。

在一些实施例中，总线接口2690A、2690B(也称为“总线接口2690”)可以提供主机2610和设备2660之间的连接。此外，总线接口2690可以实现包括数据和电力传输的总线标准(例如，通用串行总线C型(Universal Serial Bus Type C，USB-C)标准)。例如，总线接口2690可以在主机PCU 2630和设备PCU 2670之间传达总线消息2675。此外，总线接口2690可以从开关2640向电池2680提供总线电力2645。

在一个或多个实施例中，开关2640可以选择正常PSU 2650或者待机PSU 2655来向主机2610提供电力2645。如图所示，主机PCU 2630可以发送控制信号2637来控制开关2640，从而在正常PSU 2650和待机PSU 2655之间进行选择。

在一些实施例中，正常PSU 2650可以是能够在全功率需求下(例如，在正常活跃使用期间)对主机2610供电的电源设备。正常PSU 2650还可以向设备2660提供总线电力2645。在一些实施例中，待机PSU 2655可以是能够在低功率需求下(例如，在睡眠状态或者其他降低功率状态中)对主机2610供电的电源设备。在一些实施例中，与正常PSU 2650相比，待机PSU 2655具有更小的功率容量(例如，提供更小的最大功率)，但具有更高的效率(例如，遭受更少的电损耗)。

当处理器2620处于正常功率状态(例如，以全容量操作)时，开关2640可以选择正常PSU 2650来向主机2610提供电力。然而，响应于检测到一段时间段的处理活动减少，处理器2620可以进入降低功率状态(例如，睡眠状态)以节约电力。此外，处理器2620可以发送至少一个信号2625以通知主机PCU 2630：处理器2620已进入了降低功率状态。响应于信号2625，充电电路2635可以发送和/或接收总线消息2675，以确定外围设备2660在该时间点的充电功率要求。例如，充电电路2635可以发送总线消息2675以询问电池2680当前是否正在由总线电力2645充电。在确定外围设备2660当前需要总线电力2645时，充电电路2635可以使得开关2640继续选择正常PSU 2650。然而，在确定外围设备2660当前不需要总线电力2645时，充电电路2635可以使得开关2640(例如，经由控制信号2637)转而选择待机PSU2655。下文参考图27A至图33进一步描述充电电路2635的功能。

图27A至图27B—示例操作

现在参考图27A至图27B，示出的是根据一些实施例的示例操作2700、2710。操作2700、2710可对应于(上文参考图26论述的)由系统2600执行的两个示例操作。

现在参考图27A，第一操作2700可包括处理器2620进入降低功率状态(例如，响应于检测到一段时间段的低活动)。作为响应，处理器2620可以向主机PCU 2620发送待机信号(例如，指示处理器2620处于待机或者降低功率状态)，并且还可以向S3电路2750发送SLP_S3信号(例如，针对功率状态S3的睡眠控制信号)和PS_ON信号(例如，电源开/关信号)。响应于接收到SLP_S3和PS_ON信号，S3电路2750可以向第一与(AND)门2760发送板PS_ON信号。

在一些实施例中，在接收到待机指示时，主机PCU 2620的充电电路2635可以分析至少一个总线消息2675，以确定外围设备2660是否需要总线电力2645(在图26中示出)。响应于确定外围设备2660不需要总线电力2645，充电电路2635可以向第一与门2760发送PD_PS_ON信号。此外，响应于接收到板PS_ON信号和PD_PS_ON信号，第一与门2760使得开关2640选择待机PSU 2655来对主机系统供电。

现在参考图27B，第二操作2710可包括处理器2620同样向主机PCU 2620发送待机信号。然而，处理器2620可以向S0电路2770发送SLP_S0信号(例如，针对功率状态S0的睡眠控制信号)和PS_ON信号。响应于接收到SLP_S0和PS_ON信号，S0电路2770可以向第二与门2780发送S0_Idle信号。

在一些实施例中，响应于确定外围设备2660不需要总线电力2645，充电电路2635向第二与门2780发送PD_PS_ON信号。此外，响应于接收到板S0_Idle信号和PD_PS_ON信号，第二与门2780使得开关2640选择待机PSU 2655来对主机系统供电。

图28—用于选择电源的示例方法

现在参考图28，示出的是根据一个或多个实施例的用于选择电源的方法2800的流程图。在各种实施例中，方法2800可由处理逻辑(例如，图26中所示的充电电路2635和/或主机PCU 2630)来执行，该处理逻辑可包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或者其组合。在固件或软件实施例中，方法2800可由存储在非暂态机器可读介质(例如光学、半导体、或者磁存储设备)中的计算机执行指令来实现。机器可读介质可存储数据，该数据如果被至少一个机器使用则会使得该至少一个机器制作用于执行方法的至少一个集成电路。为了说明起见，下文可参考图26至图27B来描述方法2800中涉及的细节，这些图示出了根据一个或多个实施例的示例。然而，本文论述的各种实施例的范围在这个方面不受限制。

框2810可包括检测到主机的处理器已进入了降低功率模式。判决框2820可包括确定连接的设备是否需要经由总线接口的电力。例如，参考图26，主机2610经由总线接口2690连接到外围设备2660。此外，主机PCU 2630接收指示主机2610的处理器2620已进入了降低功率状态的至少一个信号2625。响应于信号2625，主机PCU 2630发送总线消息2675以询问电池2680当前是否正在由总线电力2645充电。

如果在判决框2820处确定连接的设备不需要经由总线接口的电力(“否”)，则方法2800可以继续到框2850处，框2850处包括从正常电源切换到待机电源。例如，参考图26，主机PCU 2630可以接收指示外围设备2660当前不需要总线电力2645的总线消息2675。作为响应，主机PCU 2630可以(例如，经由控制信号2637)使得开关2640选择待机PSU 2655而不是正常PSU 2650(即，来对主机2610供电)。

然而，如果在判决框2820处确定连接的设备确实需要经由总线接口的电力(“是”)，则方法2800可以继续到框2830处，框2830处包括继续使用正常电源。例如，参考图26，主机PCU 2630可以接收指示外围设备2660当前需要总线电力2645的总线消息2675。作为响应，主机PCU 2630可以使得开关2640继续选择正常PSU 2650。

框2840可包括在后来的时间点，检测到连接的设备不需要经由总线接口的电力。框2850可包括从正常电源切换到待机电源。在框2850之后，可完成方法2800。例如，参考图26，主机PCU 2630可随后接收到不同的总线消息2675，该总线消息指示外围设备2660不再需要总线电力2645(例如，电池2680的充电已完成)。作为响应，主机PCU 2630可以使得开关2640现在选择待机PSU 2655而不是正常PSU 2650。

图29—用于选择电源的示例方法

现在参考图29，示出的是根据一个或多个实施例的用于选择电源的方法2900的流程图。在各种实施例中，方法2900可由处理逻辑(例如，图26中所示的充电电路2635和/或主机PCU 2630)来执行，该处理逻辑可包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或者其组合。在固件或软件实施例中，方法2900可由存储在非暂态机器可读介质(例如，光学、半导体、或者磁存储设备)中的计算机执行指令来实现。机器可读介质可存储数据，该数据如果被至少一个机器使用则会使得该至少一个机器制作用于执行方法的至少一个集成电路。

如图29所示，方法2900可包括在框2903处，由主机和设备功率控制器进行协商2901、2902，以确定由主机提供到设备的充电功率的水平。在一些示例中，协商和充电可以经由总线接口(例如，USB-C接口)来执行。

如图所示，判决框2905包括基于当前电池状态2904确定设备的电池是否处于充满电状态。如果电池是未充满的，则框2906包括将USB_SUSPEND值设置为0(即，指示虚假条件)。然而，如果电池是充满的，则框2907包括将USB_SUSPEND值设置为1(即，指示真实条件)。

框2910包括主机处理器进入了降低功率状态2910，然后激活(assert)待机和PS_ON信号。判决框2915包括确定设备是否经由总线连接器连接到了主机。如果设备没有连接到主机，则在框2920处，主机功率控制器启动降低功率状态并且激活PD_PS_ON信号。然而，如果设备连接到了主机，则在判决框2922处，确定USB_SUSPEND是否等于0。

如果在判决框2922处确定USB_SUSPEND不等于0，则方法2900继续到(如上所述的)框2920处，框2920处包括主机功率控制器启动降低功率状态并且激活PD_PS_ON信号。然而，如果在判决框2922处确定USB_SUSPEND等于0，则在框2925处，主机功率控制器对设备进行询问(例如，使用一个或多个USB-C总线消息)。响应于主机询问，在判决框2930处，设备功率控制器确定该设备是否处于功率关键操作中。如果设备处于功率关键操作中，则设备功率控制器继续电池充电并且激活REJECT_SOURCE CAPABILITY信号。然而，如果设备未处于功率关键操作中，则设备功率控制器将设备设置为使用待机功率水平(例如，低或者最小功率水平)并且激活ACCEPT_SOURCE CAPABILITY信号。

如图所示，判决框2935包括确定是否由设备功率控制器激活了REJECT_SOURCECAPABILITY信号。如果激活了REJECT_SOURCE CAPABILITY信号，则方法2900继续到(如上所述的)框2903处，框2903处包括向设备提供原始协商的充电。然而，如果未激活REJECT_SOURCE CAPABILITY信号，则方法2900继续到(如上所述的)框2920处，框2920处包括主机功率控制器启动降低功率状态并且激活PD_PS_ON信号。

判决框2950包括确定是否激活了PS_ON信号和PD_PS_ON信号二者(例如，指示外围设备的电池将要充电)。在作出肯定判定时(“是”)，则在框2960处，主机功率控制器从正常电源切换到待机电源。否则，当在框2950处作出否定判定时(“否”)，则进入用于执行判决框2950的循环，直到发生肯定判定为止。在框2960之后，方法2900完成。

在一些实施例中，该方法2900可以通过使用源功率数据对象[PDO]消息中的“USB暂停支持标志”以及宿请求数据对象[RDO]消息中的“无USB暂停标志”来实现。当外围设备想要充电时，外围RDO中的“无USB暂停”比特将触发主机PCU控制器执行无暂停策略，从而将PD_PS_ON驱动为低。因此，当主机处理器和平台处于待机模式下时，主机将继续输送合约中协商的电力以用于充电。在这种情形中，主机功率控制器将不会切换到待机PSU。一旦其充电完成，则设备可以清除“无USB暂停”比特，这将导致HOST PCU策略将PD_PS_ON触发为高，以使得能够切换到低功率效率PSU。该策略判决可以在主机处理器和平台仍处于待机模式下时发生。

在一个或多个实施例中，方法2900可以使用具有0mA电流的USB_SUSPEND和SOURCE_CAPABILITY消息来确定设备是否将接受0mA电流，这意味着如果设备处不存在正在进行的功率关键操作，则不需要电池充电。由设备接受或拒绝的0mA的源能力(SOURCECAPABILITY)将被主机功率控制器用于确定是否应当激活PD_PS_ON。

图30—用于选择电源的示例方法

现在参考图30，示出的是根据一个或多个实施例的用于选择电源的方法3000的流程图。在各种实施例中，方法3000可由处理逻辑(例如，图26中所示的充电电路2635和/或主机PCU 2630)来执行，该处理逻辑可包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或者其组合。在固件或软件实施例中，方法3000可由存储在非暂态机器可读介质(例如，光学、半导体、或者磁存储设备)中的计算机执行指令来实现。机器可读介质可存储数据，该数据如果被至少一个机器使用则会使得该至少一个机器制作用于执行方法的至少一个集成电路。

如图30所示，方法3000可包括在框3003处，由主机和设备功率控制器进行协商3001、3002，以确定由主机提供到设备的充电功率的水平。在一些示例中，协商和充电可以经由总线接口(例如，USB-C接口)来执行。

框3010包括主机处理器进入了降低功率状态3010，然后激活待机和PS_ON信号。判决框3015包括确定设备是否经由总线连接器连接到了主机。如果设备没有连接到主机，则在框3020处，主机功率控制器启动降低功率状态并且激活PD_PS_ON信号。然而，如果设备连接到了主机，则在框3025处，主机功率控制器发送用于请求设备的电池的容量和状态的总线消息(例如，经由一个或多个USB-C总线消息)。在框3005处，设备功率控制器基于电池信息3004确定电池的容量和状态，然后向主机功率控制器发送总线消息以指示出电池的容量和状态。

判决框3006包括确定设备当前是否正在充电。如果是，则方法3000继续到(如上所述的)框3003处，框3003处包括向设备提供原始协商的充电。然而，如果确定设备当前没有在充电，则方法3000继续到(如上所述的)框3020处，框3020处包括主机功率控制器启动降低功率状态并且激活PD_PS_ON信号。

判决框3050包括确定是否激活了PS_ON信号和PD_PS_ON信号二者(例如，指示外围设备的电池将要充电)。在作出肯定判定时(“是”)，则在框3060处，主机功率控制器从正常电源切换到待机电源。否则，当在框3050处作出否定判定时(“否”)，则进入用于执行判决框3050的循环，直到发生肯定判定为止。在框3060之后，方法3000完成。

在一些实施例中，方法3000可以由主机功率控制器实现，以在设备最初连接时使用“Get_Battery_Cap”(GBCDB)扩展总线消息来确定外围电池充电需求。设备将提供电池能力数据块(battery capability data block，BCDB)，其在字节偏移量4和6中具有完整容量和当前容量信息。基于充电的量，主机功率控制器可以禁用或启用PD_PS_ON信号，以继续充电或停止充电、以及切换或不切换到待机PSU。来自设备的电池相关警报信息(ADO)用于触发主机功率控制器利用“Get_Battery_Status”扩展消息(GBSDB)进行询问，以从外围设备获得电池状态数据对象(battery status data object，BSDO)。外围设备电池状态数据对象(BSDO)将由主机功率控制器使用来将PD_PS_ON触发为高或低，以切换或不切换到待机PSU。这些判决可以在主机处理器和平台处于待机模式下时发生，从而不扰乱主机的待机状态。在一个或多个实施例中，方法3000可以使用来自设备的Get_Battery_Status和Status总线消息(指示电池充电状态)来确定是否应当激活PD_PS_ON。

图31—用于选择电源的示例方法

现在参考图31，示出的是根据一个或多个实施例用于选择电源的方法3100的流程图。在各种实施例中，方法3100可由处理逻辑(例如，图26中所示的充电电路2635和/或主机PCU 2630)来执行，该处理逻辑可包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或者其组合。在固件或软件实施例中，方法3100可由存储在非暂态机器可读介质(例如，光学、半导体、或者磁存储设备)中的计算机执行指令来实现。机器可读介质可存储数据，该数据如果被至少一个机器使用则会使得该至少一个机器制作用于执行方法的至少一个集成电路。

如图31所示，方法3100可包括在框3103处，由主机和设备功率控制器进行协商3101、3102，以确定由主机提供到设备的充电功率的水平。在一些示例中，协商和充电可以经由总线接口(例如，USB-C接口)来执行。

框3110包括主机处理器进入了降低功率状态3010，然后激活待机和PS_ON信号。判决框3115包括确定设备是否经由总线连接器连接到了主机。如果设备没有连接到主机，则在框3120处，主机功率控制器启动降低功率状态并且激活PD_PS_ON信号。然而，如果设备连接到了主机，则在框3125处，主机功率控制器发送Goto_Min总线消息，以将设备置于最小功耗水平。在框3130处，设备功率控制器将设备降低到最小功率水平，然后发送确认总线消息(例如，“Within tSnkNewPower”总线消息)以确认进入了最小功率水平。在接收到确认消息后，主机功率控制器在(如上所述的)框3120处启动降低功率状态，并且激活PD_PS_ON信号。

判决框3150包括确定是否激活了PS_ON信号和PD_PS_ON信号二者。在作出肯定判定时(“是”)，则在框3160处，主机功率控制器从正常电源切换到待机电源。否则，当在框3150处作出否定判定时(“否”)，则进入用于执行判决框3150的循环，直到发生肯定判定为止。在框3160之后，方法3100完成。

在一些实施例中，可以在设备电池已被充满的情形中实现方法3100。在这种情形中，设备仅需要涓流式充电。特别是，当主机正在反复循环进入和退出低功率状态时，可以使用方法3100。在这种情况下，仅每当主机脱离低功率状态时，总线充电才会被启用。在进入待机之前，当设备在RDO中设置了Giveback标志时，主机功率控制器可以发送“GotoMin”控制信息。主机功率控制器不会破坏与设备的功率合约。一旦主机递送了GotoMin消息，则设备将在15毫秒内将其功耗降低到最低水平。在从设备接收到PS_RDY消息之后，主机功率控制器可以将PD_PS_ON信号触发为高，以切换到待机PSU。当主机退出低功率状态时，主机功率控制器可以将设备GiveBack标志设置为0，以在设备需要时恢复充电。

图32—用于选择电源的示例方法

现在参考图32，示出的是根据一个或多个实施例用于选择电源的方法3200的流程图。在各种实施例中，方法3200可由处理逻辑(例如，图26中所示的充电电路2635和/或主机PCU 2630)来执行，该处理逻辑可包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或者其组合。在固件或软件实施例中，方法3200可由存储在非暂态机器可读介质(例如，光学、半导体、或者磁存储设备)中的计算机执行指令来实现。机器可读介质可存储数据，该数据如果被至少一个机器使用则会使得该至少一个机器制作用于执行方法的至少一个集成电路。

框3210可包括由主机的功率控制器确定主机的处理器已进入了降低功率模式，主机系统经由总线连接器向设备提供电力。框3220可包括，响应于确定处理器已进入了降低功率模式，经由一个或多个总线消息确定是否将要(即，需要)对设备的电池执行充电。框3230可包括，响应于确定将要对设备的电池执行充电，使得主机继续使用正常电源。

图33—示例存储介质

现在参考图33，示出的是存储可执行指令3310的存储介质3300。在一些实施例中，存储介质3300可以是非暂态机器可读介质，例如，光介质、半导体、磁存储设备等。可执行指令3310可由处理设备执行。此外，可执行指令3310可由至少一个机器用于制作至少一个集成电路以执行图28至图32所示的方法中的一个或多个方法。

以下条款和/或示例属于进一步实施例。

在示例1中，一种用于选择电源的主机系统可包括：处理器、用于连接到外围设备的总线接口、以及功率控制器。所述功率控制器用于：确定所述处理器是否已进入了降低功率模式；经由一个或多个总线消息，确定是否将要对所述外围设备的电池执行充电；以及响应于确定所述处理器已进入了所述降低功率模式并且将不对所述外围设备的电池执行充电，从第一电源切换到第二电源来作为所述主机系统的活跃电源。

在示例2中，示例1的主题可以可选地包括所述功率控制器用于：响应于确定所述处理器已进入了所述降低功率模式并且将要对所述外围设备的电池执行充电，维持所述第一电源作为所述主机系统的活跃电源。

在示例3中，示例1-2的主题可以可选地包括：所述活跃电源用于经由所述总线接口向所述外围设备提供电力，并且所述总线接口用于在所述主机系统和所述外围设备之间传输所述一个或多个总线消息。

在示例4中，示例1-3的主题可以可选地包括：所述第二电源包括具有比所述第一电源小的电力容量的待机电源，并且所述第一电源用于在正常操作状态下对所述主机系统供电。

在示例5中，示例1-4的主题可以可选地包括所述功率控制器用于：从所述外围设备接收用于指示所述电池正在被充电的第一总线消息。

在示例6中，示例1-5的主题可以可选地包括所述功率控制器用于：向所述外围设备发送用于询问所述电池的容量的第二总线消息；向所述外围设备发送用于询问所述电池的充电水平的第三总线消息；从所述外围设备接收用于指示所述电池的容量的第四总线消息；以及从所述外围设备接收用于指示所述电池的充电水平的第五总线消息。

在示例7中，示例1-6的主题可以可选地包括所述功率控制器用于：发送用于使得所述外围设备进入最低功率状态的第六总线消息；以及接收用于指示所述外围设备已进入了所述最低功率状态的第七总线消息。

在示例8中，示例1-7的主题可以可选地包括：所述总线接口包括通用串行总线(USB)C型端口。

在示例9中，一种用于选择电源的方法可包括：由主机系统的功率控制器确定所述主机系统的处理器已进入了降低功率模式，所述主机系统经由总线连接器向外围设备提供电力；响应于确定所述处理器已进入了所述降低功率模式，经由一个或多个总线消息，确定是否将要对所述外围设备的电池执行充电；以及响应于确定将要对所述外围设备的电池执行充电，使得所述主机系统继续使用正常电源。

在示例10中，示例9的主题可以可选地包括：响应于确定将不对所述外围设备的电池执行充电，使得所述主机系统从所述正常电源切换到待机电源。

在示例11中，示例9-10的主题可以可选地包括：所述待机电源用于提供比所述正常电源少的电力，并且所述正常电源用于在正常活跃操作状态下对所述主机系统供电。

在示例12中，示例9-11的主题可以可选地包括：经由所述总线连接器在所述主机系统和所述外围设备之间传输所述一个或多个总线消息。

在示例13中，示例9-12的主题可以可选地包括：由所述功率控制器从所述外围设备接收用于指示所述电池正在被充电的第一总线消息。

在示例14中，示例9-10的主题可以可选地包括：由所述功率控制器向所述外围设备发送用于询问所述电池的容量的第二总线消息；由所述功率控制器向所述外围设备发送用于询问所述电池的充电水平的第三总线消息；由所述功率控制器从所述外围设备接收用于指示所述电池的容量的第四总线消息；以及由所述功率控制器从所述外围设备接收用于指示所述电池的充电水平的第五总线消息。

在示例15中，示例9-14的主题可以可选地包括：由所述功率控制器发送用于使得所述外围设备进入最低功率状态的第六总线消息；以及由所述功率控制器接收用于指示所述外围设备已进入了所述最低功率状态的第七总线消息。

在示例16中，一种计算设备可包括：一个或多个处理器；以及存储器，存储器中存储有多个指令，所述多个指令当被所述一个或多个处理器执行时，使得所述计算设备执行如示例9至15中的任一项所述的方法。

在示例17中，一种可存储有数据的机器可读介质，所述数据如果被至少一个机器使用，则使得所述至少一个机器制作用于执行如示例9至15中的任一项所述的方法的至少一个集成电路。

在示例18中，一种电子设备可包括用于执行如示例9至15中的任一项所述的方法的装置。

在示例19中，一种用于选择电源的功率控制器可包括：充电电路，所述充电电路用于：确定主机系统的处理器是否已进入了降低功率模式；经由一个或多个总线消息，确定是否将要对与所述主机系统连接的外围设备的电池执行充电；以及响应于确定所述处理器已进入了所述降低功率模式并且将不对所述外围设备的电池执行充电，将所述主机系统从第一电源切换到第二电源。

在示例20中，示例19的主题可以可选地包括所述充电电路用于：响应于确定所述处理器已进入了所述降低功率模式并且将要对所述外围设备的电池执行充电，维持所述第一电源作为所述主机系统的活跃电源。

在示例21中，示例19-20的主题可以可选地包括所述充电电路用于：从所述外围设备接收用于指示所述电池正在被充电的第一总线消息。

在示例22中，示例19-21的主题可以可选地包括所述充电电路用于：向所述外围设备发送用于询问所述电池的容量的第二总线消息；向所述外围设备发送用于询问所述电池的充电水平的第三总线消息；从所述外围设备接收用于指示所述电池的容量的第四总线消息；以及从所述外围设备接收用于指示所述电池的充电水平的第五总线消息。

在示例22中，示例19-21的主题可以可选地包括所述充电电路用于：发送用于使得所述外围设备进入最低功率状态的第六总线消息；以及接收用于指示所述外围设备已进入了所述最低功率状态的第七总线消息。

在示例24中，一种用于选择电源的装置可包括：用于确定主机系统的处理器已进入了降低功率模式的装置，所述主机系统经由总线连接器向外围设备提供电力；用于响应于确定所述处理器已进入了所述降低功率模式而经由一个或多个总线消息确定是否将要对所述外围设备的电池执行充电的装置；以及用于响应于确定将要对所述外围设备的电池执行充电而使得所述主机系统继续使用正常电源的装置。

在示例25中，示例24的主题可以可选地包括：用于响应于确定将不对所述外围设备的电池执行充电而使得所述主机系统从所述正常电源切换到待机电源的装置。

在示例26中，示例24-25的主题可以可选地包括：所述待机电源用于提供比所述正常电源少的电力，并且所述正常电源用于在正常活跃操作状态下对所述主机系统供电。

在示例27中，示例24-26的主题可以可选地包括：用于在所述主机系统和所述外围设备之间传输所述一个或多个总线消息的装置。

在示例28中，示例24-27的主题可以可选地包括：用于从所述外围设备接收用于指示所述电池正在被充电的第一总线消息的装置。

在示例29中，示例24-28的主题可以可选地包括：用于向所述外围设备发送用于询问所述电池的容量的第二总线消息的装置；用于向所述外围设备发送用于询问所述电池的充电水平的第三总线消息的装置；用于从所述外围设备接收用于指示所述电池的容量的第四总线消息的装置；以及用于从所述外围设备接收用于指示所述电池的充电水平的第五总线消息的装置。

在示例30中，示例24-29的主题可以可选地包括：用于发送用于使得所述外围设备进入最低功率状态的第六总线消息的装置；以及用于接收用于指示所述外围设备已进入了所述最低功率状态的第七总线消息的装置。

根据一个或多个实施例，主机系统的功率控制器可以检测到处理器进入了降低功率状态。主机功率控制器可以使用一个或多个总线消息，来确定连接到主机的总线接口的外围设备的功率状态。基于这些消息，主机功率控制器可以确定是执行从正常电源到待机电源的切换，还是继续使用正常电源。例如，主机功率控制器可以确定外围设备的电池当前正在被充电，因此不能切换到待机电源。以这种方式，当切换到待机电源不会导致对外围设备的负面影响(例如，失去对电池的充电电力)时，就可以执行到待机电源的切换。因此，一些实施例可以提供总线接口的改善的性能。

应注意，虽然图26至图33图示了各种示例实现方式，但其他变化是可能的。例如，设想到了一个或多个实施例可被实现在参考图1至图25描述的示例设备和系统中。应注意，在图1至图33中示出的示例是为了举例说明而提供的，而并不旨在限制任何实施例。具体而言，虽然为了清晰起见可按简化形式示出实施例，但实施例可包括任意数目和/或布置的组件。例如，设想到了一些实施例除了示出的那些以外还可包括任意数目的组件，并且在某些实现方式中可发生示出的组件的不同布置。此外，设想到了图1至图33中示出的示例中的具体细节可用在一个或多个实施例中的任何地方。

应理解，上述示例的各种组合是可能的。实施例可被用于许多不同类型的系统中。例如，在一个实施例中，通信设备可被布置为执行本文描述的各种方法和技术。当然，本发明的范围不限于通信设备，而是其他实施例可指向其他类型的用于处理指令的装置，或者包括指令的一个或多个机器可读介质，这些指令响应于在计算设备上被执行，而使得该设备实现本文描述的一个或多个方法和技术。

本说明书中各处提及“一个实施例”或“一实施例”的意思是联系该实施例描述的特定特征、结构或特性被包括在本发明内涵盖的至少一个实现方式中。从而，短语“一个实施例”或者“在一实施例中”的出现不一定指的是同一实施例。此外，特定的特征、结构或特性可被设置为除了图示的特定实施例以外的其他适当形式，并且所有这种形式都可被涵盖在本申请的权利要求内。

虽然已针对有限数目的实施例描述了本发明，但本领域技术人员将会明白从这些实施例进行的许多修改和变化。旨在所附权利要求覆盖落在本发明的真实精神和范围内的所有这种修改和变化。

Claims

1.一种用于选择电源的主机系统，包括：

处理器；

总线接口，所述总线接口用于连接到外围设备；以及

功率控制器，所述功率控制器用于：

确定所述处理器是否已进入了降低功率模式；

经由一个或多个总线消息，确定是否将要对所述外围设备的电池执行充电；以及

响应于确定所述处理器已进入了所述降低功率模式并且将不对所述外围设备的电池执行充电，从第一电源切换到第二电源来作为所述主机系统的活跃电源。

2.如权利要求1所述的主机系统，所述功率控制器用于：

响应于确定所述处理器已进入了所述降低功率模式并且将要对所述外围设备的电池执行充电，维持所述第一电源作为所述主机系统的活跃电源。

3.如权利要求2所述的主机系统，所述活跃电源用于经由所述总线接口向所述外围设备提供电力，并且所述总线接口用于在所述主机系统和所述外围设备之间传输所述一个或多个总线消息。

4.如权利要求1所述的主机系统，其中，所述第二电源包括具有比所述第一电源小的电力容量的待机电源，并且所述第一电源用于在正常操作状态下对所述主机系统供电。

5.如权利要求1所述的主机系统，所述功率控制器用于：

从所述外围设备接收用于指示所述电池正在被充电的第一总线消息。

6.如权利要求1所述的主机系统，所述功率控制器用于：

向所述外围设备发送用于询问所述电池的容量的第二总线消息；

向所述外围设备发送用于询问所述电池的充电水平的第三总线消息；

从所述外围设备接收用于指示所述电池的容量的第四总线消息；以及

从所述外围设备接收用于指示所述电池的充电水平的第五总线消息。

7.如权利要求1所述的主机系统，所述功率控制器用于：

发送用于使得所述外围设备进入最低功率状态的第六总线消息；以及

接收用于指示所述外围设备已进入了所述最低功率状态的第七总线消息。

8.如权利要求1所述的主机系统，其中，所述总线接口包括通用串行总线(USB)C型端口。

9.一种用于选择电源的方法，包括：

由主机系统的功率控制器确定所述主机系统的处理器已进入了降低功率模式，所述主机系统经由总线连接器向外围设备提供电力；

响应于确定所述处理器已进入了所述降低功率模式，经由一个或多个总线消息，确定是否将要对所述外围设备的电池执行充电；以及

响应于确定将要对所述外围设备的电池执行充电，使得所述主机系统继续使用正常电源。

10.如权利要求9所述的方法，包括：

响应于确定将不对所述外围设备的电池执行充电，使得所述主机系统从所述正常电源切换到待机电源。

11.如权利要求10所述的方法，其中，所述待机电源用于提供比所述正常电源少的电力，并且所述正常电源用于在正常活跃操作状态下对所述主机系统供电。

12.如权利要求9所述的方法，包括：

经由所述总线连接器在所述主机系统和所述外围设备之间传输所述一个或多个总线消息。

13.如权利要求9所述的方法，包括：

由所述功率控制器从所述外围设备接收用于指示所述电池正在被充电的第一总线消息。

14.如权利要求9所述的方法，包括：

由所述功率控制器向所述外围设备发送用于询问所述电池的容量的第二总线消息；

由所述功率控制器向所述外围设备发送用于询问所述电池的充电水平的第三总线消息；

由所述功率控制器从所述外围设备接收用于指示所述电池的容量的第四总线消息；以及

由所述功率控制器从所述外围设备接收用于指示所述电池的充电水平的第五总线消息。

15.如权利要求9所述的方法，包括：

由所述功率控制器发送用于使得所述外围设备进入最低功率状态的第六总线消息；以及

由所述功率控制器接收用于指示所述外围设备已进入了所述最低功率状态的第七总线消息。

16.一种计算设备，包括：

一个或多个处理器；以及

存储器，所述存储器中存储有多个指令，所述多个指令当被所述一个或多个处理器执行时，使得所述计算设备执行如权利要求9至15中的任一项所述的方法。

17.一种可存储有数据的机器可读介质，所述数据如果被至少一个机器使用，则使得所述至少一个机器制作用于执行如权利要求9至15中的任一项所述的方法的至少一个集成电路。

18.一种电子设备，所述电子设备包括用于执行如权利要求9至15中的任一项所述的方法的装置。

19.一种用于选择电源的功率控制器，包括：

充电电路，所述充电电路用于：

确定主机系统的处理器是否已进入了降低功率模式；

经由一个或多个总线消息，确定是否将要对与所述主机系统连接的外围设备的电池执行充电；以及

响应于确定所述处理器已进入了所述降低功率模式并且将不对所述外围设备的电池执行充电，将所述主机系统从第一电源切换到第二电源。

20.如权利要求19所述的功率控制器，所述充电电路用于：