CN113536293A - 用于高效地管理和处理影子栈的装置和方法 - Google Patents

用于高效地管理和处理影子栈的装置和方法 Download PDF

Info

Publication number
CN113536293A
CN113536293A CN202011458472.3A CN202011458472A CN113536293A CN 113536293 A CN113536293 A CN 113536293A CN 202011458472 A CN202011458472 A CN 202011458472A CN 113536293 A CN113536293 A CN 113536293A
Authority
CN
China
Prior art keywords
ssp
stack
processor
ssps
shadow stack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011458472.3A
Other languages
English (en)
Inventor
V·尚伯格
G·奈格
D·K·古普塔
H·P·安文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN113536293A publication Critical patent/CN113536293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30134Register stacks; shift registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/54Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30116Shadow registers, e.g. coupled registers, not forming part of the register space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1052Security improvement

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)

Abstract

本申请公开了用于高效地管理和处理影子栈的装置和方法。处理器的一个实施例包括:多个寄存器,用于存储多个影子栈指针(SSP),每个SSP与不同事件优先级相关联;事件处理电路,用于响应于接收到与第一事件优先级等级相关联的第一事件,从多个寄存器中的第一寄存器选择多个SSP中的第一SSP,第一SSP能用于标识第一影子栈的顶部;验证和利用检查电路,用于确定第一SSP是否先前已经被验证,其中如果第一SSP先前还未被验证,则发起原子操作的集合以验证第一SSP并且确认第一SSP不在使用中,原子操作的集合使用锁定操作来锁定数据,直到原子操作的集合完成,并且其中如果第一SSP先前已经被验证,则重新验证第一SSP并且确认第一SSP不在使用中而无需使用锁定操作。

Description

用于高效地管理和处理影子栈的装置和方法
背景技术
技术领域
本发明的实施例总体上关于计算机处理器领域。更具体地,实施例关于用于高效地管理和处理影子栈的装置和方法。
背景技术
面向返回编程(ROP)利用是越来越常见形式的恶意的软件(恶意软件),它可以规避将存储器的位置标记为不可执行的某些防御措施。ROP利用通过将大量现有的可执行代码段(称为小工具)串联在一起来工作,这些代码段中的每一个都以“返回”指令结束。每个ROP小工具通常都很短,并且通常不对应于可执行代码中的现有过程或甚至现有指令边界。攻击者构建恶意栈,包括指向所需的一系列小工具的一系列返回地址。通过使计算机的处理器使用恶意栈代替合法的系统栈执行软件来执行ROP利用。例如,恶意栈可以通过粉碎栈、使用缓冲器溢出利用、枢转到新的栈、或以其他方式破坏系统栈来引入。
可以通过与普通系统栈(也称为“传统栈”)并行地维护“影子栈”来防止某些ROP利用。影子栈在普通软件无法访问的存储器中维护传统栈的副本,并且可用于确定传统栈是否已经被恶意软件篡改。影子栈可以使用二进制插桩来实现,这对某些用途会带来显著的性能降低。
其他措施可用于帮助防止ROP利用。例如,可将“金丝雀”值在返回地址附近插入栈中,并且可以监视它们的变化。作为另一示例,“控制传输终止指令”可以被插入到二进制文件中,以专门标识合法的返回目标。然而,此类措施可能需要重新编译或以其他方式修改客户机软件。此外,某些处理器架构可能提供某些软件无法访问的调用栈。例如,某些微控制器可以维护对软件不可访问的调用栈。作为另一示例,某些处理器架构可以将调用栈信息维护在与诸如自动变量之类的其他栈值分开的存储器区域中。
附图说明
结合以下附图,从以下具体实施方式可获得对本发明更好的理解,其中:
图1A和1B是图示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图;
图2A-图2C是图示根据本发明的实施例的示例性VEX指令格式的框图;
图3是根据本发明的一个实施例的寄存器架构的框图;以及
图4A是图示根据本发明的实施例的示例性有序取出、解码、引退流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图;
图4B是图示根据本发明的实施例的要包括在处理器中的有序取出、解码、引退核的示例性实施例和示例性寄存器重命名的乱序发布/执行架构核的框图;
图5A是单个处理器核以及它与管芯上互连网络的连接的框图;
图5B图示根据本发明的实施例的图5A中的处理器核的部分的展开图;
图6是根据本发明的实施例的具有集成存储器控制器和图形器件的单核处理器和多核处理器的框图;
图7图示根据本发明的一个实施例的系统的框图;
图8图示根据本发明的实施例的第二系统的框图;
图9图示根据本发明的实施例的第三系统的框图;
图10图示根据本发明的实施例的芯片上系统(SoC)的框图;
图11图示根据本发明的实施例的、对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图;
图12图示根据一个实施例的具有影子栈的处理设备;
图13图示根据一个实施例的影子栈指针管理;
图14图示基于中断处理SSP的一个实施例;
图15图示根据一个实施例的与影子栈指针管理相关联的附加细节;
图16图示其中使用原子操作或非原子操作来选择和验证SSP的实施例;
图17图示验证/证实操作的一个实施例;
图18图示根据本发明的一个实施例的方法;以及
图19图示用于在原子和非原子验证与忙碌检查操作之间选择的方法的附加细节。
具体实施方式
在下面的描述中,出于解释的目的,阐述了众多具体细节以便提供对下文所描述的本发明的实施例的透彻理解。然而,对本领域技术人员将显而易见的是,可在没有这些具体细节中的一些细节的情况下实施本发明的实施例。在其他实例中,公知的结构和设备以框图形式示出,以避免使本发明的实施例的基本原理变得模糊。
示例性处理器架构、指令格式和数据类型
指令集包括一个或多个指令格式。给定指令格式定义各种字段(位的数量、位的位置)以指定将要执行的操作(操作码)以及将对其执行该操作的操作数,等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同的位的位置,因为较少的字段被包括)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。由此,ISA的每一条指令使用给定的指令格式(并且如果经定义,则按照该指令格式的指令模板中的给定的一个指令模板)来表达,并包括用于指定操作和操作数的字段。例如,示例性ADD(加法)指令具有特定的操作码和指令格式,该特定的指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段;并且该ADD指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特定的内容。
本文中所描述的(多条)指令的实施例可被具体化为不同格式。另外,下文详细描述示例性系统、架构和流水线。(多条)指令的实施例可在此类系统、架构和流水线上执行,但是不限于详述的那些系统、架构和流水线。
通用向量友好指令格式
向量友好指令格式是适于向量指令(例如,存在专用于向量操作的特定字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量操作两者的实施例,但是替代实施例仅使用通过向量友好指令格式的向量操作。
图1A-图1B是图示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图1A是图示根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图;而图1B是图示根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图。具体地,针对通用向量友好指令格式100定义A类和B类指令模板,这两者都包括无存储器访问105的指令模板和存储器访问120的指令模板。在向量友好指令格式的上下文中的术语“通用”是指不束缚于任何特定指令集的指令格式。
尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例:64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16个双字尺寸的元素组成,或者替代地由8个四字尺寸的元素组成);64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸);32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸);以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸);但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图1A中的A类指令模板包括:1)在无存储器访问105的指令模板内,示出无存储器访问的完全舍入控制型操作110的指令模板、以及无存储器访问的数据变换型操作115的指令模板;以及2)在存储器访问120的指令模板内,示出存储器访问的时效性125的指令模板和存储器访问的非时效性130的指令模板。图1B中的B类指令模板包括:1)在无存储器访问105的指令模板内,示出无存储器访问的写掩码控制的部分舍入控制型操作112的指令模板以及无存储器访问的写掩码控制的vsize型操作117的指令模板;以及2)在存储器访问120的指令模板内,示出存储器访问的写掩码控制127的指令模板。
通用向量友好指令格式100包括以下列出的按照在图1A-1B中图示的顺序的如下字段。
格式字段140——该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式,并且由此标识指令在指令流中以向量友好指令格式出现。由此,该字段对于仅具有通用向量友好指令格式的指令集是不需要的,在这个意义上该字段是任选的。
基础操作字段142——其内容区分不同的基础操作。
寄存器索引字段144——其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如,32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。尽管在一个实施例中N可多达三个源寄存器和一个目的地寄存器,但是替代实施例可支持更多或更少的源和目的地寄存器(例如,可支持多达两个源,其中这些源中的一个源还用作目的地;可支持多达三个源,其中这些源中的一个源还用作目的地;可支持多达两个源和一个目的地)。
修饰符(modifier)字段146——其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开;即在无存储器访问105的指令模板与存储器访问120的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次(在一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器访问操作不这样(例如,源和目的地是寄存器)。尽管在一个实施例中,该字段还在三种不同的方式之间选择以执行存储器地址计算,但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段150——其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中,该字段被分成类字段168、α字段152和β字段154。扩充操作字段150允许在单条指令而非2条、3条或4条指令中执行多组共同的操作。
比例字段160——其内容允许用于存储器地址生成(例如,用于使用(2比例*索引+基址)的地址生成)的索引字段的内容的按比例缩放。
位移字段162A——其内容用作存储器地址生成的一部分(例如,用于使用(2比例*索引+基址+位移)的地址生成)。
位移因数字段162B(注意,位移字段162A直接在位移因数字段162B上的并置指示使用一个或另一个)——其内容用作地址生成的一部分;它指定将按比例缩放存储器访问的尺寸(N)的位移因数——其中N是存储器访问中的字节数量(例如,用于使用(2比例*索引+基址+按比例缩放的位移)的地址生成)。忽略冗余的低阶位,并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成将在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段174(稍后在本文中描述)和数据操纵字段154C确定。位移字段162A和位移因数字段162B不用于无存储器访问105的指令模板和/或不同的实施例可实现这两者中的仅一个或不实现这两者中的任一个,在这个意义上,位移字段162A和位移因数字段162B是任选的。
数据元素宽度字段164——其内容区分将使用多个数据元素宽度中的哪一个(在一些实施例中用于所有指令;在其他实施例中只用于指令中的一些指令)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持数据元素宽度,则该字段是不需要的,在这个意义上,该字段是任选的。
写掩码字段170——其内容逐数据元素位置地控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码,而B类指令模板支持合并-写掩码和归零-写掩码两者。当合并时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新;在另一实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零;在一个实施例中,目的地的元素在对应掩码位具有0值时被设为0。该功能的子集是控制正被执行的操作的向量长度的能力(即,从第一个到最后一个正被修改的元素的跨度),然而,被修改的元素不一定要是连续的。由此,写掩码字段170允许部分向量操作,这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段170的内容选择了多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此,写掩码字段170的内容间接地标识要执行的掩码)的本发明的实施例,但是替代实施例替代地或附加地允许掩码写字段170的内容直接指定要执行的掩码。
立即数字段172——其内容允许对立即数的指定。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在,在这个意义上,该字段是任选的。
类字段168——其内容在不同类的指令之间进行区分。参考图1A-图1B,该字段的内容在A类和B类指令之间进行选择。在图1A-图1B中,圆角方形用于指示特定的值存在于字段中(例如,在图1A-图1B中分别用于类字段168的A类168A和B类168B)。
A类指令模板
在A类非存储器访问105的指令模板的情况下,α字段152被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的舍入型操作110和无存储器访问的数据变换型操作115的指令模板分别指定舍入152A.1和数据变换152A.2)的RS字段152A,而β字段154区分要执行所指定类型的操作中的哪一种。在无存储器访问105的指令模板中,比例字段160、位移字段162A和位移比例字段162B不存在。
无存储器访问的指令模板——完全舍入控制型操作
在无存储器访问的完全舍入控制型操作110的指令模板中,β字段154被解释为其(多个)内容提供静态舍入的舍入控制字段154A。尽管在本发明的所述实施例中舍入控制字段154A包括抑制所有浮点异常(SAE)字段156和舍入操作控制字段158,但是替代实施例可支持这两个概念,可将这两个概念编码为同一字段,或仅具有这些概念/字段中的一个或另一个(例如,可仅具有舍入操作控制字段158)。
SAE字段156——其内容区分是否禁用异常事件报告;当SAE字段156的内容指示启用抑制时,给定的指令不报告任何种类的浮点异常标志,并且不唤起任何浮点异常处置程序。
舍入操作控制字段158——其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入以及就近舍入)。由此,舍入操作控制字段158允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段150的内容覆盖(override)该寄存器值。
无存储器访问的指令模板-数据变换型操作
在无存储器访问的数据变换型操作115的指令模板中,β字段154被解释为数据变换字段154B,其内容区分要执行多个数据变换中的哪一个(例如,无数据变换、混合、广播)。
在A类存储器访问120的指令模板的情况下,α字段152被解释为驱逐提示字段152B,其内容区分要使用驱逐提示中的哪一个(在图1A中,对于存储器访问时效性125的指令模板和存储器访问非时效性130的指令模板分别指定时效性的152B.1和非时效性的152B.2),而β字段154被解释为数据操纵字段154C,其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如,无操纵、广播、源的向上转换以及目的地的向下转换)。存储器访问120的指令模板包括比例字段160,并任选地包括位移字段162A或位移比例字段162B。
向量存储器指令使用转换支持来执行来自存储器的向量加载以及向存储器的向量存储。如同寻常的向量指令,向量存储器指令以数据元素式的方式从/向存储器传输数据,其中实际被传输的元素由被选为写掩码的向量掩码的内容规定。
存储器访问的指令模板——时效性的
时效性的数据是可能足够快地被重新使用以从高速缓存操作受益的数据。然而,这是提示,并且不同的处理器能以不同的方式实现它,包括完全忽略该提示。
存储器访问的指令模板——非时效性的
非时效性的数据是不太可能足够快地被重新使用以从第一级高速缓存中的高速缓存操作受益且应当被给予驱逐优先级的数据。然而,这是提示,并且不同的处理器能以不同的方式实现它,包括完全忽略该提示。
B类指令模板
在B类指令模板的情况下,α字段152被解释为写掩码控制(Z)字段152C,其内容区分由写掩码字段170控制的写掩码应当是合并还是归零。
在B类非存储器访问105的指令模板的情况下,β字段154的一部分被解释为RL字段157A,其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的写掩码控制部分舍入控制类型操作112的指令模板和无存储器访问的写掩码控制VSIZE型操作117的指令模板分别指定舍入157A.1和向量长度(VSIZE)157A.2),而β字段154的其余部分区分要执行所指定类型的操作中的哪一种。在无存储器访问105的指令模板中,比例字段160、位移字段162A和位移比例字段162B不存在。
在无存储器访问的写掩码控制部分舍入控制型操作110的指令模板中,β字段154的其余部分被解释为舍入操作字段159A,并且禁用异常事件报告(给定的指令不报告任何种类的浮点异常标志,并且不唤起任何浮点异常处置程序)。
舍入操作控制字段159A——正如舍入操作控制字段158,其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入以及就近舍入)。由此,舍入操作控制字段159A允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段150的内容覆盖该寄存器值。
在无存储器访问的写掩码控制VSIZE型操作117的指令模板中,β字段154的其余部分被解释为向量长度字段159B,其内容区分要执行多个数据向量长度中的哪一个(例如,128字节、256字节或512字节)。
在B类存储器访问120的指令模板的情况下,β字段154的一部分被解释为广播字段157B,其内容区分是否要执行广播型数据操纵操作,而β字段154的其余部分被解释为向量长度字段159B。存储器访问120的指令模板包括比例字段160,并任选地包括位移字段162A或位移比例字段162B。
针对通用向量友好指令格式100,示出完整操作码字段174包括格式字段140、基础操作字段142和数据元素宽度字段164。尽管示出了其中完整操作码字段174包括所有这些字段的一个实施例,但是在不支持所有这些字段的实施例中,完整操作码字段174包括少于所有的这些字段。完整操作码字段174提供操作代码(操作码)。
扩充操作字段150、数据元素宽度字段164和写掩码字段170允许逐指令地以通用向量友好指令格式指定这些特征。
写掩码字段和数据元素宽度字段的组合创建各种类型的指令,因为这些指令允许基于不同的数据元素宽度应用该掩码。
在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可支持仅A类、仅B类、或者可支持这两类。举例而言,旨在用于通用计算的高性能通用乱序核可仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类,并且旨在用于通用计算和图形和/或科学(吞吐量)计算两者的核可支持A类和B类两者(当然,具有来自这两类的模板和指令的一些混合、但是并非来自这两类的所有模板和指令的核在本发明的范围内)。同样,单个处理器可包括多个核,这多个核全部都支持相同的类,或者其中不同的核支持不同的类。举例而言,在具有单独的图形核和通用核的处理器中,图形核中的旨在主要用于图形和/或科学计算的一个核可仅支持A类,而通用核中的一个或多个可以是具有旨在用于通用计算的仅支持B类的乱序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或乱序核。当然,在本发明的不同实施例中,来自一类的特征也可在其他类中实现。将使以高级语言编写的程序成为(例如,及时编译或静态编译)各种不同的可执行形式,这些可执行形式包括:1)仅具有由用于执行的目标处理器支持的(多个)类的指令的形式;或者2)具有替代例程并具有控制流代码的形式,该替代例程使用所有类的指令的不同组合来编写,该控制流代码选择这些例程以基于由当前正在执行代码的处理器支持的指令来执行。
VEX指令格式
VEX编码允许指令具有多于两个的操作数,并且允许SIMD向量寄存器比28位长。VEX前缀的使用提供了三操作数(或者更多操作数)句法。例如,先前的两操作数指令执行覆写源操作数的操作(诸如A=A+B)。VEX前缀的使用使操作数能执行非破坏性操作,诸如A=B+C。
图2A图示示例性AVX指令格式,包括VEX前缀202、实操作码字段230、Mod R/M字节240、SIB字节250、位移字段262以及IMM8 272。图2B图示来自图2A的哪些字段构成完整操作码字段274和基础操作字段241。图2C图示来自图2A的哪些字段构成寄存器索引字段244。
VEX前缀(字节0-2)202以三字节形式进行编码。第一字节是格式字段290(VEX字节0,位[7:0]),该格式字段290包含明确的C4字节值(用于区分C4指令格式的唯一值)。第二-第三字节(VEX字节1-2)包括提供专用能力的多个位字段。具体地,REX字段205(VEX字节1,位[7-5])由VEX.R位字段(VEX字节1,位[7]–R)、VEX.X位字段(VEX字节1,位[6]–X)以及VEX.B位字段(VEX字节1,位[5]–B)组成。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx以及bbb)进行编码,由此可通过增加VEX.R、VEX.X以及VEX.B来形成Rrrr、Xxxx以及Bbbb。操作码映射字段215(VEX字节1,位[4:0]–mmmmm)包括对隐含的前导操作码字节进行编码的内容。W字段264(VEX字节2,位[7]–W)由记号VEX.W表示,并且提供取决于该指令而不同的功能。VEX.vvvv 220(VEX字节2,位[6:3]-vvvv)的作用可包括如下:1)VEX.vvvv对以反转(1补码)的形式被指定的第一源寄存器操作数进行编码,并且对具有两个或两个以上源操作数的指令有效;2)VEX.vvvv对针对某些向量位移以1补码的形式被指定的目的地寄存器操作数进行编码;或者3)VEX.vvvv不对任何操作数进行编码,该字段被保留并且应当包含1111b。如果VEX.L 268尺寸字段(VEX字节2,位[2]-L)=0,则它指示28位向量;如果VEX.L=1,则它指示256位向量。前缀编码字段225(VEX字节2,位[1:0]-pp)提供用于基础操作字段241的附加位。
实操作码字段230(字节3)还被称为操作码字节。操作码的部分在该字段中被指定。
MOD R/M字段240(字节4)包括MOD字段242(位[7-6])、Reg字段244(位[5-3])、以及R/M字段246(位[2-0])。Reg字段244的作用可包括如下:对目的地寄存器操作数或源寄存器操作数(Rrrr中的rrr)进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段246的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)-比例字段250(字节5)的内容包括用于存储器地址生成的SS252(位[7-6])。先前已经针对寄存器索引Xxxx和Bbbb参考了SIB.xxx 254(位[5-3])和SIB.bbb 256(位[2-0])的内容。
位移字段262和立即数字段(IMM8)272包含数据。
示例性寄存器架构
图3是根据本发明的一个实施例的寄存器架构300的框图。在所图示的实施例中,存在32个512位宽的向量寄存器310;这些寄存器被引用为zmm0到zmm31。较低的6个zmm寄存器的较低阶256个位覆盖在寄存器ymm0-15上。较低的6个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。
通用寄存器325——在所图示的实施例中,存在十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用来寻址存储器操作数。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点栈寄存器堆(x87栈)345,在其上面重叠了MMX紧缩整数平坦寄存器堆350——在所图示的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈;而MMX寄存器用于对64位紧缩整数数据执行操作,以及为在MMX和XMM寄存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用较宽的或较窄的寄存器。另外,本发明的替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。
示例性核架构、处理器和计算机架构
处理器核可通过不同的方式、出于不同的目的并且在不同的处理器中实现。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。本文中详细描述的是包括示例性核、处理器等等的电路(单元)。
示例性核架构
图4A是图示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图4B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图4A-图4B中的实线框图示有序流水线和有序核,而虚线框的任选增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图4A中,处理器流水线400包括取出级402、长度解码级404、解码级406、分配级408、重命名级410、调度(也被称为分派或发布)级412、寄存器读取/存储器读取级414、执行级416、写回/存储器写入级418、异常处置级422和提交级424。
图4B示出处理器核490,该处理器核490包括前端单元430,该前端单元430耦合到执行引擎单元450,并且前端单元430和执行引擎单元450两者都耦合到存储器单元470。核490可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,核490可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元430包括分支预测单元432,该分支预测单元432耦合到指令高速缓存单元434,该指令高速缓存单元434耦合到指令转换后备缓冲器(TLB)436,该指令转换后备缓冲器436耦合到指令取出单元438,该指令取出单元438耦合到解码单元440。解码单元440(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元440可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核490包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元440中,或以其他方式在前端单元430内)。解码单元440耦合到执行引擎单元450中的重命名/分配器单元452。
执行引擎单元450包括重命名/分配器单元452,该重命名/分配器单元452耦合到引退单元454和一个或多个调度器单元的集合456。(多个)调度器单元456表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元456耦合到(多个)物理寄存器堆单元458。(多个)物理寄存器堆单元458中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元458包括向量寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元458由引退单元454重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元454和(多个)物理寄存器堆单元458耦合到(多个)执行集群460。(多个)执行集群460包括一个或多个执行单元的集合462以及一个或多个存储器访问单元的集合464。执行单元462可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元456、(多个)物理寄存器堆单元458和(多个)执行集群460示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元464的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。
存储器访问单元的集合464耦合到存储器单元470,该存储器单元470包括数据TLB单元472,该数据TLB单元472耦合到数据高速缓存单元474,该数据高速缓存单元474耦合到第二级(L2)高速缓存单元476。在一个示例性实施例中,存储器访问单元464可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434还耦合到存储器单元470中的第二级(L2)高速缓存单元476。L2高速缓存单元476耦合到一个或多个其他级别的高速缓存,并最终耦合到主存储器。
作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线400:1)指令取出438执行取出级402和长度解码级404;2)解码单元440执行解码级406;3)重命名/分配器单元452执行分配级408和重命名级410;4)(多个)调度器单元456执行调度级412;5)(多个)物理寄存器堆单元458和存储器单元470执行寄存器读取/存储器读取级414;执行集群460执行执行级416;6)存储器单元470和(多个)物理寄存器堆单元458执行写回/存储器写入级418;7)各单元可牵涉到异常处置级422;以及8)引退单元454和(多个)物理寄存器堆单元458执行提交级424。
核490可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核490包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后的诸如
Figure BDA0002830294110000161
Figure BDA0002830294110000162
超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据高速缓存单元434/474以及共享的L2高速缓存单元476,但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
具体的示例性有序核架构
图5A-图5B图示更具体的示例性核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。
图5A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络502的连接及其第二级(L2)高速缓存的本地子集504的框图。在一个实施例中,指令解码器500支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存506允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元508和向量单元510使用分开的寄存器集合(分别为标量寄存器512和向量寄存器514),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)高速缓存506读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集504是全局L2高速缓存的一部分,该全局L2高速缓存被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集504的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集504中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集504中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。在一些实施例中,每个环形数据路径为每个方向1024位宽。
图5B是根据本发明的实施例的图5A中的处理器核的一部分的展开图。图5B包括L1高速缓存504的L1数据高速缓存506A部分,以及关于向量单元510和向量寄存器514的更多细节。具体地,向量单元510是16宽向量处理单元(VPU)(见16宽ALU 528),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元520支持对寄存器输入的混合,通过数值转换单元522A-B支持数值转换,并且通过复制单元524支持对存储器输入的复制。
具有集成存储器控制器和图形器件的处理器
图6是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器600的框图。图6中的实线框图示具有单个核602A、系统代理610、一个或多个总线控制器单元的集合616的处理器600,而虚线框的任选增加图示具有多个核602A-N、系统代理单元610中的一个或多个集成存储器控制器单元的集合614以及专用逻辑608的替代处理器600。
因此,处理器600的不同实现可包括:1)CPU,其中专用逻辑608是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核602A-N是一个或多个通用核(例如,通用有序核、通用乱序核、这两者的组合);2)协处理器,其中核602A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核602A-N是大量通用有序核。因此,处理器600可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器600可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次结构包括核604A-N内的一个或多个级别的高速缓存、一个或多个共享高速缓存单元的集合606、以及耦合到集成存储器控制器单元的集合614的外部存储器(未示出)。共享高速缓存单元的集合606可包括一个或多个中间级别的高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元612将集成图形逻辑608、共享高速缓存单元的集合606以及系统代理单元610/(多个)集成存储器控制器单元614互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元606与核602A-N之间维持一致性。
在一些实施例中,一个或多个核602A-N能够实现多线程化。系统代理610包括协调和操作核602A-N的那些部件。系统代理单元610可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核602A-N以及集成图形逻辑608的功率状态进行调节所需的逻辑和部件,或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
核602A-N在架构指令集方面可以是同构的或异构的;即,核602A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图7-10是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。
现在参考图7,所示出的是根据本发明一个实施例的系统700的框图。系统700可以包括一个或多个处理器710、715,这些处理器耦合到控制器中枢720。在一个实施例中,控制器中枢720包括图形存储器控制器中枢(GMCH)790和输入/输出中枢(IOH)750(其可以在分开的芯片上);GMCH790包括存储器和图形控制器,存储器740和协处理器745耦合到该存储器和图形控制器;IOH 750将输入/输出(I/O)设备760耦合到GMCH 790。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器740和协处理器745直接耦合到处理器710,并且控制器中枢720与IOH 750处于单个芯片中。
附加的处理器715的任选性在图7中通过虚线来表示。每一处理器710、715可包括本文中描述的处理核中的一个或多个,并且可以是处理器600的某一版本。
存储器740可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢720经由诸如前端总线(FSB)之类的多分支总线、点对点接口、或者类似的连接795来与(多个)处理器710、715进行通信。
在一个实施例中,协处理器745是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在一个实施例中,控制器中枢720可以包括集成图形加速器。
在物理资源710、715之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。
在一个实施例中,处理器710执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器710将这些协处理器指令识别为具有应当由附连的协处理器745执行的类型。因此,处理器710在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器745。(多个)协处理器745接受并执行所接收的协处理器指令。
现在参见图8,所示出的是根据本发明的实施例的第一更具体的示例性系统800的框图。如图8中所示,多处理器系统800是点对点互连系统,并且包括经由点对点互连850耦合的第一处理器870和第二处理器880。处理器870和880中的每一个都可以是处理器600的某一版本。在本发明的一个实施例中,处理器870和880分别是处理器710和715,而协处理器838是协处理器745。在另一实施例中,处理器870和880分别是处理器710和协处理器745。
处理器870和880示出为分别包括集成存储器控制器(IMC)单元872和882。处理器870还包括作为其总线控制器单元的一部分的点对点(P-P)接口876和878;类似地,第二处理器880包括P-P接口886和888。处理器870、880可以经由使用点对点(P-P)接口电路878、888的P-P接口850来交换信息。如图8中所示,IMC 872和882将处理器耦合到相应的存储器,即存储器832和存储器834,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器870、880可各自经由使用点对点接口电路876、894、886、898的各个P-P接口852、854来与芯片组890交换信息。芯片组890可以任选地经由高性能接口892来与协处理器838交换信息。在一个实施例中,协处理器838是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享高速缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由P-P互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。
芯片组890可以经由接口896耦合到第一总线816。在一个实施例中,第一总线816可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一I/O互连总线之类的总线,但是本发明的范围不限于此。
如图8中所示,各种I/O设备814可连同总线桥818一起耦合到第一总线816,该总线桥818将第一总线816耦合到第二总线820。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器815耦合到第一总线816。在一个实施例中,第二总线820可以是低引脚数(LPC)总线。在一个实施例中,各种设备可耦合到第二总线820,这些设备包括例如键盘和/或鼠标822、通信设备827以及存储单元828,该存储单元828诸如可包括指令/代码和数据830的盘驱动器或者其他大容量存储设备。此外,音频I/O 824可以被耦合到第二总线820。注意,其他架构是可能的。例如,代替图8的点对点架构,系统可以实现多分支总线或其他此类架构。
现在参考图9,示出的是根据本发明的实施例的第二更具体的示例性系统900的框图。图8和9中的类似元件使用类似的附图标记,并且从图9中省略了图8的某些方面以避免混淆图9的其他方面。
图9图示处理器870、880可分别包括集成存储器和I/O控制逻辑(“CL”)972和982。因此,CL 972、982包括集成存储器控制器单元,并包括I/O控制逻辑。图9图示不仅存储器832、834耦合到CL 872、882,而且I/O设备914也耦合到控制逻辑872、882。传统I/O设备915被耦合到芯片组890。
现在参考图10,示出的是根据本发明的实施例的SoC 1000的框图。图6中的类似要素使用类似的附图标记。另外,虚线框是更先进的SoC上的任选的特征。在图10中,(多个)互连单元1002被耦合到:应用处理器1010,其包括一个或多个核的集合602A-N、高速缓存单元604A-N以及(多个)共享高速缓存单元606;系统代理单元610;(多个)总线控制器单元616;(多个)集成存储器控制器单元614;一个或多个协处理器的集合1020,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元1030;直接存储器访问(DMA)单元1032;以及用于耦合到一个或多个外部显示器的显示单元1040。在一个实施例中,(多个)协处理器1020包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图8中图示的代码830)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图11是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图11示出可使用第一编译器1104来编译高级语言1102形式的程序,以生成可由具有至少一个第一指令集核的处理器1116原生执行的第一二进制代码(例如,x86)1106。在一些实施例中,具有至少一个第一指令集核的处理器1116表示通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的实质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。第一编译器1104表示可操作用于生成第一指令集的二进制代码1106(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个第一指令集核的处理器1116上执行。类似地,图11示出可以使用替代的指令集编译器1108来编译高级语言1102形式的程序,以生成可以由不具有至少一个第一指令集核的处理器1114(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码1110。指令转换器1112用于将第一二进制代码1106转换成可以由不具有第一指令集核的处理器1114原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码1110相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器1112通过仿真、模拟或任何其他过程来表示允许不具有第一指令集处理器或核的处理器或其他电子设备执行第一二进制代码1106的软件、固件、硬件或其组合。
用于高效地管理和处理影子栈的装置和方法
本发明的一个实施例实现用于避免对用于证实影子栈指针(SSP)的令牌的验证的原子操作同时保留令牌机制的基本安全属性的技术。此外,某些实施例包括用于支持高效的令牌验证架构的虚拟化扩展。
在许多情况下,诸如x86架构之类的指令集架构(ISA)提供多个特权等级,指令可以在这些特权等级下执行。这些特权等级用于通过保护资源免受由较不受信任实体的直接访问来提高与硬件平台相关联的操作系统(例如,内核)的可靠性。在一些实施例中,这些特权等级的范围从最受信任的特权等级环0(例如,管理程序模式)到环3或无特权等级(例如,应用或用户模式)。每个特权等级需要预分配和储备一些资源以供在到新的特权等级的环转变时的后续使用。
处理器的当前特权等级控制指令执行。处理器可改变其当前特权等级以控制应用对系统资源的可访问性,该系统资源诸如系统寄存器、系统指令、以及指定的系统存储器区域。在执行应用时,处理器利用数据栈,该数据栈存储数据(例如,传递到子例程的参数和其他数据等)和用于引导所执行的指令的控制流的控制信息。典型地,控制信息包括一个或多个返回地址,当所调用的过程完成时,控制流将返回到该返回地址。
在面向返回编程(ROP)攻击中,攻击者尝试获得对数据栈的控制以劫持程序控制流。例如,攻击者可执行对存储在数据栈中的过程的返回地址的未经授权的栈修改。未经授权的栈修改用于将当前进程的控制流转移至任意存储器位置,进一步到侵入的目标。使数据栈更容易受到ROP攻击和其他类型的控制流颠覆攻击的一个因素是,栈通常存储数据和控制信息两者,并且因此数据栈需要可由软件写入。使数据栈更容易受到此类攻击的其他因素是,对数据栈的切换通常作为无特权操作被执行。
响应于一些事件(例如,中断/异常),处理器可将对在无特权用户级处执行的指令序列的控制转移到管理程序特权等级,以访问处置该事件所需要的资源。由于允许栈指针和/或控制流信息(例如,返回地址)被修改(例如,以指向恶意软件/攻击者控制的存储器)的所利用的缺陷,以上所讨论的这些因素可趋向于增加对控制流颠覆攻击的系统暴露。
本发明的实施例包括用于在特权转移时保护栈免受控制流颠覆攻击的技术。在一个实施例中,提供多个“影子”栈以保护数据栈上的控制信息免受篡改尝试的影响。如本文中所使用,影子栈是与数据栈分离的第二栈,并且被用于存储和保护来自数据栈的在控制转移操作中使用的信息。例如,影子栈可存储控制信息而不是数据(例如,不是用户级应用程序写入和修改的存储在栈上的类型的参数和其他数据)。
在一些实施例中,影子栈仅可由某些指令写入,这些指令诸如执行控制转移操作和流(例如,中断/异常递送)的“CALL(调用)”(其为使用数据栈的过程调用机制的示例)和“FAR CALL(远调用)”(实现微分支跳转指令和宏分支跳转指令两者的分支指令的示例)。在此类情况下,影子栈可能不可由其他软件通过其他指令发起的存储写入,该其他指令诸如在单个操作中转移多个字节的“MOV”,以及用于将上下文状态存储到存储器并将该上下文状态从存储器恢复为处理器的寄存器的“XSAVE”。此写入保护通过在页表中将用于影子栈的存储器标记为影子栈存储器来实现,使得由软件使用如“MOV”、“XSAVE”等指令来发起的存储不完成和出错。同样地,当诸如“CALL”之类的指令生成旨在用于影子栈存储器的存储指令时,它们使用特定的存储操作,使得它们仅在对其执行该存储的存储器在页表中被标记为影子栈存储器时完成。否则,错误发生。
在一些实施例中,影子栈可任选地被配置成用于单独地以无特权用户级模式(例如,环3特权等级)或以有特权的或管理程序特权等级模式(环0、环1、或环2特权等级)的操作。为了在从源特权等级到新特权等级的特权切换时支持切换影子栈,一个实现方式包括与每个特权等级相关联的寄存器。
在一些实施例中,系统软件(例如,系统内核或操作系统)将影子栈指针(SSP)加载到每个特权等级处的一个或多个寄存器中。处理器然后通过与新特权等级相关联的寄存器来访问SSP以标识该特权等级的影子栈。在操作中,一旦处理器选择用于新特权等级的SSP,处理器就证实/验证SSP以供处理器在新等级处使用。如果证实是成功的,则处理器将在新特权等级的影子栈设置为忙碌的,并将用于源特权等级的返回地址信息入栈至影子栈上。此后,本公开的实施例确保在影子栈被标记为不忙碌的之前验证处理器返回到源特权等级的任何转变。此验证包括确保被入栈至影子栈上的源特权等级的返回地址匹配与数据栈相关联的当前地址。为了执行此验证,处理器使用特定的加载操作(例如,“shadowStackPop(影子栈出栈)”或具有影子栈语义的加载),使得如果该加载操作不是到在页表中被标记为影子栈存储器的存储器则此加载不完成(例如,生成错误状况)。因此,任何用于将影子栈指针指向非影子栈存储器的尝试将被检测并被阻止。
在其他实施例中,本文中所描述的技术可被使用,例如,用于保护作为中断/异常递送的部分或作为从在源特权等级的当前任务到在新特权等级的新任务的任务切换的部分的影子栈切换,用于利用影子栈来执行快速系统调用(例如,用户模式特权转变到具有硬件权限的完全控制的模式),用于保护影子栈免受诸如从较低特权的进程到较高特权的进程的攻击之类的跨线程攻击,以及用于在环转变期间保护影子栈免受由攻击者采用的其他类型的未经授权的栈修改。
图12图示根据一个实施例的用于支持用于在环转变期间保护栈的处理器扩展的处理设备的框图。处理设备100一般可以称为“处理器”或“CPU”。此处的“处理器”或“CPU”将指能够执行对算术、逻辑或I/O操作进行编码的指令的设备。在一个说明性示例中,处理器可以包括算术逻辑单元(ALU)、控制单元以及多个寄存器。在进一步的方面中,处理器可以包括一个或多个处理核,并且因此,处理器可以是通常能够处理单个指令流水线的单核处理器,或可以是可以同时处理多个指令流水线的多核处理器。在另一方面,处理器可被实现为单个集成电路、两个或更多个集成电路,或者可以是多芯片模块(例如,其中各个微处理器管芯被包括在单个集成电路封装中,并且因此,这些微处理器管芯共享单个插槽)的组件。
如图12中所示,处理设备可包括各种组件。在一个实施例中,处理设备可包括一个或多个处理器核1210和存储器控制器单元1220以及其他组件,如所示地彼此耦合。处理设备还可包括通信组件(未示出),其可用于处理设备1200的各组件之间的点对点通信。处理设备可在计算系统(未示出)中使用,该计算系统包括但不限于台式计算机、平板计算机、膝上型计算机、上网本、笔记本计算机、个人数字助理(PDA)、服务器、工作站、蜂窝电话、移动计算设备、智能电话、互联网设备或任何其他类型的计算设备。在另一实施例中,处理设备可用在芯片上系统(SoC)系统中。在一个实施例中,SoC可包括处理设备和存储器。用于一个此类系统的存储器是DRAM存储器。DRAM存储器可以与处理器和其他系统组件位于同一芯片上。另外,诸如存储器控制器或图形控制器之类的其他逻辑块也可以位于该芯片上。
(多个)处理器核1210可执行用于处理设备1200的指令。这些指令可包括但不限于:用于取出指令的预取逻辑、用于对指令解码的解码逻辑、用于执行指令的执行逻辑,等等。计算系统可以代表基于可从美国加利福尼亚州圣克拉拉市的
Figure BDA0002830294110000271
公司获得的英特尔x86族处理器和/或微处理器(例如,英特尔酷睿i5、i7处理器等等)的处理系统,不过也可使用其他系统(包括具有其他微处理器的计算设备、工程工作站、机顶盒等等)。在一个实施例中,样本计算系统可执行操作系统、嵌入式软件和/或图形用户界面的版本。因此,本公开的各实施例不限于硬件电路和软件的任何特定组合。
在说明性示例中,处理核1210可以具有包括处理器逻辑和电路的微架构。具有不同微架构的多个处理器核可共享公共指令集的至少一部分。例如,类似的寄存器架构在不同的微架构中可使用各种技术以不同方法来实现,包括专用物理寄存器、使用寄存器重命名机制(诸如,使用寄存器别名表(RAT)、重排序缓冲器(ROB)、以及引退寄存器堆)的一个或多个动态分配的物理寄存器。
存储器控制器1220可以执行使得处理设备能访问包括易失性存储器和/或非易失性存储器的存储器(未示出)并与之进行通信的功能。在一些实施例中,存储器控制器1220可以位于与处理设备1200相关联的处理器管芯上,而存储器位于处理器管芯外。在一些实施例中,处理设备包括用于对指令和/或数据进行高速缓存的高速缓存单元1230。高速缓存单元1230包括但不限于:第一级(L1)1232、第二级(L2)1234和末级高速缓存(LLC)1236,或处理设备1200内的高速缓存存储器的任何其他配置。在一些实施例中,L1高速缓存1232和L2高速缓存1234可以将数据传输到LLC 1236,并且从LLC 1236传输数据。在一个实施例中,存储器控制器1220可被连接至LLC 1236,以在高速缓存单元1230与存储器之间传输数据。如所示,高速缓存单元1230可被集成到处理核1210中。高速缓存单元1230可存储由处理设备1200的一个或多个组件利用的数据(例如,包括指令)。
在一些实施例中,处理设备可执行一个或多个用户级应用1240(例如,用户级多线程应用)。此类用户级应用1240可由安装在处理设备1200处的系统软件(未示出)执行。系统软件的示例包括但不限于,一个或多个操作系统、虚拟机监视器(VMM)、管理程序等及其组合。如本文中所公开的,用户级应用1240可使用指令(例如,指令1250)来控制处理设备。指令1250可表示提供给处理核1210以供执行的宏指令、汇编语言指令或机器层级指令。
在一些实施例中,处理核1210可操作以执行如由指令1250所指定的调用过程指令1252的实施例和从过程返回指令1254的实施例。调用过程指令1252通常将被简单称为调用指令,并且从过程返回指令1254通常将被简单称为返回指令。调用指令和返回指令可代表供处理设备在某个特权等级执行的特定指令集的指令或控制信号。在操作期间,处理核1210可接收调用指令1252。例如,可从与用户级应用1240相关联的正在调用子例程、例程、中断处理程序等的调用过程接收调用指令1252。在一些实施例中,当函数或过程已经被调用时,返回指令1254的地址可被入栈至存储在存储器中的数据栈上。
如果调用指令1252引起处理设备1200的当前特权等级的改变,则处理设备执行从当前栈到为新特权等级定义的栈的栈切换。例如,调用指令1252可使得处理设备改变当前特权等级,以访问在当前特权等级不可访问的某些系统资源。在一些实施例中,存储在存储器中的一个或多个影子栈用于帮助保护数据栈免受篡改和/或用于帮助增加计算机安全性。存储在(多个)影子栈上的信息可代表与返回指令1254相关的返回地址相关信息(例如,实际返回地址、用于证实/验证返回地址的信息、其他返回地址信息)。
为了标识用于特定特权等级的当前影子栈,处理设备包括数个影子栈寄存器1270,其中每个寄存器与某个特权等级相关联。作为说明性示例,处理设备可包括被称为IA32_PLx_SSP的四(4)个寄存器,其中x代表特权等级(例如,0、1、2、或3)。在一些实施例中,影子栈寄存器1270可以是型号专属寄存器(MSR)或通用寄存器(GPR)。在其他实施例中,各种类型的结构可以用作寄存器1270,只要它们能够如本文中所描述地存储并提供数据。
在处理设备1200启动时,与设备相关联的系统软件可将栈指针(SSP)1275编程到影子栈寄存器1270中的每一个中。栈指针(SSP)1275可操作以标识用于由寄存器标识的特权等级的特定的影子栈。例如,SSP1275可以是存储器中指向影子栈顶部的线性地址。在一个实施例中,处理设备可包括影子栈保护逻辑1280,该影子栈保护逻辑1280用于控制在环转变期间经由影子栈寄存器1270对影子栈的访问。
影子栈保护逻辑1280还可实施:如果对其执行旨在用于影子栈的加载或存储的地址在页表中未被标记为是影子栈类型,则此加载和存储生成错误状况。此影子栈保护逻辑1280还可阻止由软件通过诸如“MOV”和“XSAVE”之类的指令发起的存储进行的到影子栈存储器的存储。在一些实施例中,影子栈保护逻辑1280还可包括任选的可配置影子栈模式1285。影子栈模式1285可以是被配置成用于交替地启用和禁用处理设备1200对影子栈的使用的位指示符。替代地,影子栈可以任选地总是被启用,并且影子栈模式1285可以任选地被省略。交替地,可以存在对应于特权等级中的每一个的影子栈模式。
图13图示根据一个实施例的用于支持用于在环转变期间保护栈的处理器扩展的包括存储器1301的系统1300。在此示例中,存储器1301存储一个或多个数据栈,诸如数据栈1303。数据栈有时被称为调用栈、数据栈、或仅称为栈。数据栈1303可代表栈类型数据结构,该栈类型数据结构可操作以存储数据1305和用于引导所执行的指令的控制流的控制信息1307两者。典型地,存在用于与处理设备1200相关联的每个特权等级的数据栈1303。由此,当处理设备切换特权等级时,处理设备也像其针对影子栈进行的如本公开中所描述的那样来切换数据栈1303。每个数据栈的数据1305可代表可以被入栈至数据栈1301上的各种各样的不同类型的数据中的任一者(例如,被传递至子例程的参数和其他数据等)。通常,控制信息1307可包括用于一个或多个先前执行的过程调用的一个或多个返回地址。这些返回地址可代表当所调用的过程结束并返回时所调用的过程将要返回控制流的地方的指令地址。
如图13中所示,存储器1301还包括多个影子栈1309。影子栈1309用于帮助保护数据栈1303免受某种类型的控制流攻击。影子栈1309可表示与数据栈1303分离的附加的栈类型数据结构。在一些实施例中,影子栈1309可用于存储与所执行指令的控制信息1307而非数据1305相关联的信息。在一个说明性示例中,影子栈1309可存储代码段(CS)描述符(诸如CS 1340)和指令指针(EIP)(诸如EIP 1350),该代码段描述符指定存储器1301中正在被执行的代码段,该指令指针可标识与数据栈1303中的指令相关的返回地址和其他信息。在一些实施例中,用于创建影子栈的存储器在页表中可被标记为是影子栈存储器类型,使得如果到影子栈的加载和存储不是到影子栈类型的存储器,则该到影子栈的加载和存储出错。类似地,如果使不旨在用于影子栈的存储到被标记为影子栈存储器的存储器,则该不旨在用于影子栈的存储出错。
虽然系统1300可包括多个影子栈1309,但一次仅可选择一个影子栈作为当前影子栈1310。就此而言,影子栈1309可单独地以无特权用户级模式(例如,环3特权等级)或以有特权的或管理程序特权等级模式(环0、环1、或环2特权等级)操作。在一些实施例中,多个影子栈1309中的每一个包括可操作以标识该影子栈顶部的影子栈指针(SSP),诸如SSP1320。例如,SSP 1320可以是存储器1301中指向当前影子栈顶部的线性地址。如上所述,SSP 1320可被存储在与特定特权等级相关联的影子栈寄存器1270中的一个中。
如所示,系统1300还可包括来自图12的处理设备。在一些实施例中,处理设备可具有控制系统1300中的应用的执行的当前特权等级。在某种情况下,处理设备可将其当前特权等级改变为新特权等级,以控制应用对系统1300的资源的可访问性。例如,响应于诸如所调用的过程、中断/异常处理程序之类的某些类型的操作,或者响应于其他类型的操作,处理设备可改变其当前特权等级。在一些实施例中,处理设备可采用影子栈保护逻辑1280,以在特权等级转变期间保护栈。
在特权等级转变的一个示例中,处理设备可从用户模式中的当前特权等级(CPL)(例如,CPL3)转变为管理程序模式中的新特权等级(例如,CPL<3)。例如,可由调用通过请求改变到更高特权等级的调用门(call gate)来发起此类型的特权等级转变,或者可通过调用中断/异常处理程序来发起此类型的特权等级转变。响应于用户模式到管理程序模式的特权等级转变,处理设备检查影子栈1309是否在新特权等级针对处理设备被启用。例如,处理设备可检查影子栈模式1285指示符的设置,以确定影子栈1309启用还是禁用。如果影子栈1309被启用,则与用户模式相关联的当前SSP被保存到影子栈寄存器1270中的一个。之后,使用存储在与新特权等级相关联的寄存器中的SSP(诸如SSP 1320)来建立针对管理程序模式的新的影子栈1310。在一些实施例中,用户模式SSP被保存到影子栈寄存器中,使得在必要时管理程序模式中的处理设备在再次返回到用户模式之前可以修改用户模式SSP,诸如进行影子栈展开以将条目从栈移除和其他类型的修整(fix up)。
一旦处理设备从与新特权等级相关联的寄存器检取到SSP 1320,则处理设备自动地执行若干检查,以通过使用影子栈保护逻辑1280中的某种逻辑来验证被编程在寄存器中的SSP,该影子栈保护逻辑1280中的某种逻辑诸如验证和设置忙碌逻辑1325。自动检查包括但不限于验证下列各项:被编程在寄存器中的SSP 1320正在指向管理程序影子栈(例如,影子栈1310)的顶部;由SSP 1320标识的影子栈可以被用于与处理设备相关联的平台硬件的当前模式;以及影子栈未被加载到任何其他处理线程上。这些检查可被用于阻止某些攻击,诸如其中攻击者可将两个不同处理器线程上的寄存器指向同一影子栈以通过在第二处理器上作出调用来操纵在一个处理器上消耗的返回地址的跨线程。
为了执行用于验证SSP 1320的检查,处理设备的系统软件(例如,内核或OS)标识在由该SSP指向的影子栈1310的顶部处的令牌1330。在一些实施例中,处理设备可(例如,原子地)从由SSP 1320指定的地址加载令牌1330(例如,其中8个字节)。在一个实施例中,令牌1330的加载锁定该令牌和/或位置(例如,高速缓存行),以阻止该令牌由另一处理器核或处理设备复制或修改。在一个实施例中,该令牌的加载由处理设备使用特定的影子栈操作来完成,使得如果对其执行加载或存储的地址在页表中不是被标记为影子栈存储器的存储器则引起错误。
令牌1330包括用于验证被编程在寄存器中的SSP 1320的多个位。在一些实施例中,处理设备分析多个位,以标识设置位、忙碌指示符、标志指示符以及其他相关信息,该设置位表示令牌1330的线性地址,该忙碌指示符可以是被设置为指示影子栈1310是否已经被加载到任何逻辑处理器上的值(例如,1或0)的令牌的判定位,该标志指示符可以是被设置为指示影子栈1310是否用于在某种位模式(例如,32位或64位)中使用的值(例如,1或0)的令牌的另一判定位。
根据验证逻辑1325,处理设备检查忙碌指示符是否未被设置(例如0),指示影子栈1310尚未被加载到任何逻辑处理器上。处理设备还检查系统1300的硬件平台是否正在以匹配由标志指示符表示的位模式的模式操作。例如,基于该标志指示符,处理设备可确定影子栈1310用于在32位或64位的机器上使用。然后,处理设备可检查例如与硬件平台相关联的平台寄存器,以验证该平台处于对应的操作模式(例如,32位或64位)。处理设备还检查记录在令牌1330中的线性地址是否匹配SSP 1320的线性地址。
用于匹配线性地址的该检查验证寄存器1270正在指向有效影子栈的顶部,因为影子栈上的8个字节位置的线性地址将不在影子栈上的这8个字节的内容中出现,除了当由系统软件创建以初始化令牌1303时。由此,令牌1330形成指示影子栈指针被存储在寄存器1270中之后正在指向有效影子栈的顶部的指示符。在一些实施例中,取决于处理设备处于32位操作模式还是64位操作模式,处理设备实施将影子栈对齐到4个字节或8个字节,并且因此,影子栈指针1320的较低的2位总是为0并且可以用于保存令牌1330的忙碌指示符和标志。如果以上检查全部产生正确的指示,则令牌的忙碌指示符可被设置为用于指示由SSP1320指向的影子栈在以新特权等级使用中的值(例如,1)。应当注意,在这些检查正在被执行的同时,包含令牌1330的存储器位置(例如高速缓存行)由处理设备锁定,使得它不能被修改(例如,由另一逻辑处理器设置忙碌)。设置忙碌位之后,处理器释放在该存储器位置上的锁定。利用在该令牌上保持的锁定来进行这些检查操作确保没有检查时间到使用时间(time-of-check-to-time-of-use)问题。否则,如果以上检查中的任何一个失败,则处理设备可生成可以被传输例如到与处理设备1200相关联的操作系统的错误或警报。在一些实施例中,如果错误被生成,则包含令牌1330的存储器位置上的锁定被释放而不修改该位置的内容。
当从管理程序模式返回到用户模式特权等级(诸如CPL0/1/2->CPL 3模式转变)时,处理设备通过使用诸如验证和清除忙碌逻辑1325之类的某种逻辑来执行若干检查。可例如由中断返回(IRET)指令或将待执行的下一地址移动到CPU的指令指针的“FAR RET(远返回)”指令或其他类型的返回指令来发起此类型的特权等级转变。
作为到用户模式特权等级的返回转变的部分,处理设备如由验证和清除忙碌逻辑1335引导地检查令牌1330中的忙碌指示符是否被设置和记录在该令牌中的线性地址是否匹配SSP 1320的地址以及SSP 1320是否正在指向8字节对齐的地址。如果以上检查全部产生正确的指示,则处理设备通过清除令牌1330中的忙碌指示符来将令牌1330标记为“空闲的”。应当注意,使用锁定的加载从由SSP 1320指向的存储器地址加载令牌,使得位置(例如,高速缓存行)被锁定而免于随后的修改。如果验证成功,则忙碌位被清除并且锁定被释放。如果验证不成功,则锁定被释放而不修改该位置的内容。此后,处理设备从与那个特权等级相关联的适当的影子栈寄存器1270检取用于用户模式的SSP。否则,处理设备可生成指示令牌1330无效的错误。
在特权等级转变的另一示例中,处理设备可从当前管理程序模式特权等级转变到新的更高的管理程序模式,诸如CPL2->CPL1、CPL1->CPL0或CPL2->CPL0模式转变。例如,可由调用通过请求改变到更高特权等级的调用门来发起此类型的特权等级转变,或者可通过调用中断/异常处理程序来发起此类型的特权等级转变。在此类转变时,处理设备从用于新特权等级的影子栈寄存器1270中的一个恰当的影子栈寄存器选择用于该等级的SSP 1320。一旦处理设备从与新特权等级相关联的寄存器检取到SSP 1320,则处理设备执行若干检查,以验证被编程在该寄存器中的SSP。
在一些实施例中,如以上所描述,处理设备通过使用验证和设置忙碌逻辑1325来执行检查。如果检查是成功的,则处理设备通过设置令牌1330中的忙碌指示符来将影子栈1310标记为忙碌的。然后,处理设备将标识存储器1301中的正在被执行的代码段的CS 1340选择器(例如,代码段选择器)、标识返回地址信息的EIP 1350和与当前特权等级相关联的SSP 1360入栈至新特权等级的影子栈上。在一些实施例中,处理设备可将线性指令指针(LIP)(其为EIP加上代码段基址)替代EIP 1350入栈至新特权等级的影子栈上。这可用于检测在调用和从该调用返回之间改变代码段基址的任何尝试。
当从新的管理程序模式返回到先前的管理程序模式时,处理设备确保此类返回将到作出先前调用来自的同一地址。例如,处理设备验证来自影子栈1310的CS 1340和EIP1350(或LIP)匹配数据栈1303上的对应值。如果存在匹配,则处理设备将CS 1340、EIP 1350和SSP 1360从影子栈1310移除或从影子栈1310出栈,以建立在新特权等级使用的新的SSP。在一些实施例中,使用特定的影子栈存储和加载操作来完成入栈和出栈操作,使得如果该操作将到在页表中未被标记为影子栈存储器的存储器则该操作引起错误。
作为转变的部分,处理设备如由验证和清除忙碌逻辑1335引导地检查SSP 1320指向的影子栈的令牌1330中的忙碌指示符是否被设置以及记录在令牌1330中的线性地址是否匹配SSP 1320的地址。如果以上检查全部产生正确的指示,则处理设备通过清除令牌1330中的忙碌指示符来将令牌1330标记为“空闲的”。
在特权等级转变的又一示例中,可以是基于处理设备从用户模式到最受信任特权等级的模式转变,诸如CPL3->CPL0模式转变。例如,可使用设计为调用系统函数调用的某种指令(如SYSCALL或SYSENTER)来发起此种类型的特权等级转变,其中系统调用中的一些不使用栈来执行系统调用操作。在此类转变中,处理设备将当前SSP保存在与用户模式相关联的寄存器中,并通过在对应的寄存器中检取SSP来切换到与CPL0特权等级相关联的影子栈。由于处理设备可正在执行系统关键操作所以它不验证SSP,但是它仍将影子栈集合中的影子栈的其中之一选择为用于新特权等级的当前SSP。例如,此种类型的特权等级转变可例如由不使用栈来执行系统调用操作的快速系统调用发起。在一些实施例中,如果系统调用需要使用栈来作出调用,则它可被配置成用于使用由处理设备提供的新的指令来执行将影子栈验证和标记为忙碌的,诸如在验证和设置忙碌逻辑1325中所采用的。对被选择、但先前未被验证和设置忙碌的影子栈完成验证和设置忙碌逻辑1325的该操作。
当从最受信任特权等级返回到先前的用户模式(诸如CPL0->CPL3模式转变)时,处理设备通过访问存储在对应于用户模式特权等级的寄存器中的SSP来恢复用户模式影子栈。例如,可由系统返回或退出指令(例如,SYSRET或SYSEXIT)来发起此种类型的特权等级转变。在返回到CPL3之前,如果系统调用使用了由处理设备提供的新的指令来将影子栈验证和标记为忙碌的,则由处理设备提供用于将影子栈验证和标记为空闲的互补指令,诸如在验证和清除忙碌逻辑1335中所采用的。
图14图示根据一个实施例的用于作为中断或异常递送的部分的切换栈的包括图13的存储器1301的系统1400。在一些实施例中,本公开提供了用于在某些中断的递送和执行期间通过使用中断影子栈指针表1410替代影子栈寄存器1270来补足影子栈切换的技术,该中断影子栈指针表1410用于选择用于特权等级的影子栈指针,此中断或异常处理程序将在该特权等级被执行。处理设备1210的系统软件可将表1410的地址编程到寄存器中,该寄存器诸如中断SSP表地址寄存器1420。表1410用于存储由处理设备在如以上相关于系统1300所描述的环转变期间标识的SSP 1320或者用于如果中断或异常被配置成对新的影子栈操作则在甚至没有环转变的情况下引起栈切换。就此,使用被配置成用于中断描述符表(IDT)中的那个中断的选择器1430从中断影子栈表1410中的影子栈指针的其中之一选择新的影子栈。
在操作中,当异常或中断发生时,处理设备可利用到旨在处理此类事件的某个代码序列的控制转移来响应。此代码序列典型地以管理程序模式运行。此特殊代码序列或例程的地址由处理设备从中断描述符表(IDT)使用专用于发生了的异常类型的到该IDT中的索引(例如,一个索引可对应于页错误,而另一个对应于溢出异常)来检取。此IDT条目可进一步具有到中断影子栈表1410中的索引,使得当此索引值是非零时其指示即使在递送该中断或异常不需要特权改变的情况下也必须针对该中断或异常执行影子栈切换。处理设备可使用与IDT相关联的索引来索引中断影子栈指针表1410,以标识存储SSP 1320的条目。例如,中断影子栈指针表1410中的条目还可专用于发生了的异常类型。然后,SSP 1320可由处理设备在与中断相关联的新特权等级使用。在SSP的选择之后,处理器设备调用某种逻辑(例如,验证和设置忙碌逻辑1325),以确保存储在中断影子栈表1410中的SSP 1320指向用于该操作模式的有效影子栈的顶部,并确保该影子栈不是忙碌的。
图15图示根据一个实施例的用于作为任务切换的部分的切换栈的包括图13的存储器1301的系统1500。在任务切换操作中,处理设备可执行引起从当前正在运行的任务到新任务的任务切换的控制转移指令。在一些实施例中,任务可表示处理设备可以分派、执行或挂起的工作单元。作为示例,该任务可用于执行以下一者或多者:程序、任务或进程、操作系统服务实用程序、中断或异常处理程序、或者内核或执行实用程序。在一个方面中,当调用过程指令被执行时,或者当中断或异常发生时,或者在其他情况下,可执行任务切换。
当处理设备执行从当前任务到新任务的任务切换时,该设备将当前任务的状态信息保存在存储器1301中对应于当前任务的被称作任务状态段(TSS)(诸如当前TSS 1520)的数据结构中,并且新任务1527的状态信息可从对应于该新任务1527的另一TSS(例如,新TSS1525)加载或检取。此状态信息可包括但不限于用于执行任务切换所需要的信息,诸如栈和指令指针以及I/O映射基址。
TSS表示在计算机上的存储器中的可用于存储关于任务的信息的硬件管理的数据结构。例如,TSS包括处理设备100执行任务切换所需要的信息,诸如栈指针。用于不同任务的每个TSS可包括到用于不同特权等级的不同栈(例如,用于存储控制信息和数据两者的数据栈)的栈指针。当由于任务切换操作而作出特权等级改变时,栈指针用于标识适当的栈。例如,任务切换操作可包括将在当前特权等级的当前任务切换到在新特权等级的新任务。
在一些实施例中,如本文中所描述的影子栈可用于在从当前任务到新任务的特权等级转变期间保护数据栈。如上所述,影子栈是与数据栈分离的存储和保护来自数据栈的在控制转移操作中使用的信息的第二栈。在一个实施例中,诸如影子栈指针1530之类的影子栈选择信息可被存储在某些处理器架构(例如,英特尔酷睿i7、i5和至强处理器)中的TSS结构中。
参考图15,操作中的处理设备通过标识与新任务相关联的TSS 1520来响应于从当前任务到新任务的任务切换。就此,例如,可由调用指令、中断/异常或以其他方式发起任务切换。在一些实施例中,处理设备检取存储在TSS 1520中的SSP 1530。SSP 1530标识与新任务一起使用的影子栈1510。
在一些实施例中,如以上所描述,处理设备通过使用验证和设置忙碌逻辑1325执行检查来验证SSP 1530。如果检查是成功的,则处理设备通过设置令牌1540中的忙碌指示符来将影子栈1310标记为忙碌的。然后,处理设备将标识正在被执行的当前任务的代码段的CS 1550指针、标识与当前任务有关的返回地址信息的EIP 1560以及与当前任务的当前特权等级相关联的SSP 1570入栈至新的影子栈上。
当从新任务返回到先前任务时,处理设备确保此类返回会到先前任务的同一地址。例如,处理设备验证来自影子栈1510的CS 1550和EIP 1560匹配与先前任务相关联的TSS中的对应值。如果存在匹配,则处理设备将CS 1550、EIP 1560和SSP 1570从影子栈1510移除或出栈,以建立在先前任务中使用的当前SSP。作为到先前任务的返回转变的部分,处理设备如由验证和清除忙碌逻辑1335引导地检查令牌1540中的忙碌指示符是否被设置以及令牌1540的线性地址是否匹配SSP 1530的地址。如果以上检查全部产生正确的指示,则处理设备通过清除令牌1540中的忙碌指示符来将令牌1540标记为“空闲的”。
虽然某些架构支持以特权等级1或2(CPL==1或CPL==2)操作,但是这些特权环未被一些操作系统使用。此外,某些架构不支持利用以大于0的特权等级操作的处理程序进行中断/异常递送。虽然该具体实施方式的其余部分关注于特权环0内的交互,但是本发明的基本原理不限于任何特定特权等级处的操作。
处理设备的一个实施例支持快速返回和事件递送(FRED)实现方式,该实现方式目标为针对现代64位操作系统显著加速中断/异常递送架构。具体而言,该实施例替换通过中断描述符表(IDT)的递送,由此移除针对事件处理程序定位代码和栈段选择器和指针所需的存储器访问和描述符表加载。此外,针对环1和环2对事件/异常递送的弃用减少了等待时间,因为事件递送微代码和/或电路不需要考虑这些路径。最后,对于具有低等待时间的最佳微代码实现方式,一个实施例提供用于返回至用户空间和管理程序空间的分开的指令。
在一个实施例中,当使用多个影子栈时,在给定时间仅一个影子栈(当前影子栈)可用。如上所述,指向当前影子栈的顶部的指针被保持在影子栈指针(SSP)1320中。为了支持在特权切换时切换影子栈,处理器的一个实施例包括以下型号专属寄存器(MSR):
1.IA32_PL3_SSP
2.IA32_FRED_SSP0
3.IA32_FRED_SSP1
4.IA32_FRED_SSP2
5.IA32_FRED_SSP3
在一个实施例中,当转变为CPL 3时,IA32_PL3_SSP MSR保持要被建立的SSP值。当针对中断和/或事件递送转变为CPL 0时,IA32_FRED_SSPi保持要被建立的SSP值。
图16图示其中事件处理电路/逻辑1690基于中断/异常1694的优先级等级和当前特权等级1696来选择具有分别指向影子栈1640-1644的指针的SSP MSR 1600-1604的实施例。在该实施例中,中断和异常1694被分类到四个优先级等级0至3之一中,其中0是最低优先级,3是最高优先级。当事件需要被处理时,事件处理电路/逻辑1690通过将SSP切换至对应的IA32_FRED_SSPi MSR中的值而将其递送到针对该等级(‘i’)配置的栈等级上。例如,响应于具有优先级等级2的中断或异常1694,选择来自FRED SSP2 MSR 1602的影子栈指针,从而标识管理程序影子栈SS2 1642(取决于如下所述的当前特权等级1696)。然而,如果处理器已经在处置被分类为要以比当前活跃的栈等级更高的栈等级递送的事件,则处理器留在当前栈上。
该描述的其余部分将假设到栈等级‘i’的影子栈的切换,该栈等级处的事件/中断需要被递送。在一个实施例中,FRED SSPi MSR 1600-1603中的每一个存储以下位字段定义:
·位0-经验证的(V)-指示MSR是否指向经验证的管理程序影子栈令牌(稍后描述)
·位2:1-预留(设置为0)
·位63:3-管理程序影子栈上的有效管理程序影子栈令牌的线性地址。
在一个实施例中,如果当处理器正在CPL3处的用户模式(即,如由当前特权等级1694指示)中执行时事件1694到达,或者如果处理器已经在CPL0处的管理程序模式中执行并且事件1694需要以更高的栈等级被递送,则事件处理电路/逻辑1690从分别标识新的管理程序影子栈1640-1643的SSP MSR 1600-1603之一中选择指针。因此,假设在CPL3(用户模式)和CLP0(管理程序模式)启用影子栈,将SSP保存至PL3 SSP 1604(即,当以用户模式开始时),并且使用所选择的FRED SSPi MSR 1600-1603中的SSP地址来为管理程序模式建立影子栈,其中i是如由要被递送的事件1694的优先级标识的被切换的栈等级。
一旦管理程序模式的试探性SSP已经从FRED SSPi MSR1600-1603之一中被选择为PL0 SSP 1650,则验证和利用检查电路/逻辑1695确认以下各项:(1)编程在所选择的SSPMSR 1600-1603中的SSP正在分别指向对应的管理程序影子栈1640-1643的顶部,以及(2)由该试探性SSP 1602指向的管理程序影子栈1640-1643在任何其他逻辑处理器上已经不活跃,如由忙碌位(B)所指示。如果两个检查都通过,则FRED SSPi MSR 1602变成新特权等级0(PL0)SSP 1650。
这些检查被执行以防止跨线程攻击,在跨线程攻击中攻击者可以将两个逻辑处理器上的MSR指向同一影子栈,并且因此能够通过对一个逻辑处理器作出调用来操纵在第二逻辑处理器上消耗的返回地址。
在一个实施例中,为了执行这些检查,系统软件定位在每个管理程序影子栈顶部的管理程序影子栈令牌1650-1653。在一个特定实现方式中,管理程序影子栈令牌1650-1653按以下方式格式化:
·位63:3-影子栈上的令牌的线性地址
·位2:1-预留(设置为0)
·位0-忙碌(B);如果该位为0,则所选择的影子栈1640-1643未被加载到任何逻辑处理器上。
图17图示具有管理程序影子栈令牌1652的管理程序影子栈1642。PL0_SSP 1650保持线性地址0x1008,该地址指向保持管理程序影子栈令牌1652的管理程序影子栈1642的顶部。当系统软件创建该影子栈时,忙碌标志1701(位0)被初始化为0。
图18中图示根据本发明的一个实施例的方法。该方法可在本文中所描述的处理器和系统架构上被实现,但并不限于任何特定的架构。
在1801处,在当前特权等级接收具有优先级i的系统事件(例如,中断)。在1802处,关于是否需要对特权等级0影子栈指针的改变作出判定。如上所述,如果当处理器正在CPL3处的用户模式中执行时事件到达,或者如果处理器已经在CPL0处的管理程序模式中执行并且事件需要以更高的栈等级被递送,则需要改变。如果不需要改变,则在1810处,过程以当前SSP留在当前特权等级处。
如果需要改变,则在1803处,基于事件的优先级(i)选择试探性SSP。例如,可以从SSP MSRi中选择试探性SSP。在1804处,对试探性SSP执行验证和忙碌检查。例如,可以将在影子栈的顶部处的令牌与试探性SSP进行比较,并且可以检查忙碌位以确认由试探性SSP标识的影子栈未被加载到任何其他逻辑处理器上。如果在1805处确定这些检查中的任一个失败,则在1811处生成错误/异常。
如果在1805处两个检查都通过,则在1806处,将用于特权等级0的影子栈指针设置为试探性SSP。当前特权等级也可以改变。在1807处,在当前特权等级并且使用新的SSP PL0值来处理事件。当接收到下一系统事件时,过程然后返回至1801。
在一个实施例中,验证和利用检查电路/逻辑1690以及验证和忙碌检查1804可操作以确保:如果MSR被标记为未经验证的,则在任何时刻影子栈(例如,FRED SSP2 1602)可以仅被加载到一个逻辑处理器上(以下代码序列中的“检查1”)。此外,这些实施例确保MSR中的影子栈指针正在指向栈的顶部处的有效管理程序影子栈令牌(以下代码序列中的“检查2”)。
在一个实施例中,下列代码序列被执行以验证令牌并且将影子栈指针SSP设置为令牌中的地址:
Figure BDA0002830294110000421
Figure BDA0002830294110000431
注意,当MSR未被标记为经验证的时,然后可以使用由以上代码序列中获取高速缓存行上的锁的Atomic-Start(原子-开始)以及释放所获取的锁的Atomic-End(原子-结束)表示的锁定的读取-修改-写入来原子地执行这些检查。如果这些检查成功,则令牌被标记为忙碌,并且MSR被标记为经验证的。
在一个实施例中,一旦MSR被标记为经验证的,则在对这些操作的后续调用时,不再执行锁定的读取-修改-写入操作。相反,如果MSR已经被标记为经验证的,则可以通过从存储器加载令牌来执行相同的两个检查,而无需获取保持令牌的高速缓存行上的锁。在一个实施例中,为了避免MSR中的经验证的位被错误地或恶意地设置,用于写入该MSR的指令总是忽略写入值中的经验证的位(例如,位0)并且无条件地将经验证的位清除为0。此类指令包括但不限于WRMSR指令(写入型号专属MSR)和XRSTORS指令(恢复来自存储器的处理器管理程序模式扩展状态)。
图19图示用于基于经验证的位在原子操作与非原子操作之间选择的方法的一个实施例。在1901处,接收具有优先级等级i的诸如中断之类的系统事件。在1902处,作出确定经验证的位(例如,SSPi=0)是否为0(即,未经验证)的检查。如果经验证的位为0,则在1903处发起原子操作的集合。在1904处检查忙碌位。如果该位被设置为0,则在1905处将影子栈令牌与临时SSP进行比较。如果它们匹配,则在1906处完成原子操作。在1907处,将经验证的位设置为1,并且在1908处,使临时影子栈指针(SSPi)成为当前影子栈指针(SSP)。
返回到1904,如果忙碌位被设置为1(意味着影子栈正在由另一逻辑处理器使用),或者在1905处,如果令牌与临时SSP不匹配,则在1913处生成错误状况。此外,在1902处,如果经验证的位被设置为1(意味着SSP已经被验证),则不需要原子操作的集合。可以在1914处(检查忙碌位)和在1915处(比较令牌)执行相同的两个检查。然而,执行这些操作而无需获取保持所需要的数据的高速缓存行上的锁。例如,未获取存储令牌的高速缓存行上的锁,由此通过允许其他操作同时进行来提高性能。
如果返回是到用户模式(CPL3),当从对中断/异常的处置返回时,或者当返回到管理程序模式中的被中断的过程但被中断的过程在比事件被处置的栈等级更低的栈等级处执行时,处理器可以切换远离管理程序影子栈(例如,PL0 SSP 1650)。
作为处置事件/中断的部分,操作系统还可以执行上下文切换。在一个实施例中,上下文切换引起写入到FRED_SSPi MSR以更新与一个或多个优先级等级相关联的影子栈指针。在此类情况下,对FRED_SSPi MSR的写入使MSR中的经验证的位被清除为0。
因此,在一个实施例中,在从事件处理程序返回时,三种情形可能发生:
(1)FRED_SSPi=SSP|1:
–SSP与MSR值匹配(SSP处于栈底)并且MSR是经验证的
–不做任何事情
(2)FRED_SSPi=SSP
–SSP与MSR值匹配但是MSR不是经验证的
–检查令牌以查看MSR是否可以被重新验证;
(3)FRED_SSPi[63:1]≠SSP[63:1]
–SSP与MSR不匹配;重置令牌以使其空闲并且清除MSR验证
–该操作需要如上所述的原子读取-修改-写入。
Figure BDA0002830294110000451
Figure BDA0002830294110000461
因此,当MSR正在指向有效和忙碌的管理程序影子栈令牌时,MSR被标记为经验证的。该操作是最频繁的情形并且不需要锁定的操作——由此提高性能。如果MSR不是正在指向当前影子栈上的有效和忙碌的管理程序影子栈令牌,并且如果在当前影子栈上存在忙碌的管理程序影子栈令牌,则该令牌被释放。使用锁定操作来执行该操作以确保一致性和安全性。
在清除令牌之后,如果处理器正在返回到用户模式(CPL3),则处理器针对用户模式从PL3_SSP 1604建立影子栈指针。如果处理器正在返回到管理程序模式(CPL0)中的被中断的过程,则被中断的过程的影子栈指针被恢复(例如,使用FRED SSP0指针)。
注意,写入FRED_SSPi MSR的WRMSR指令或XRSTORS指令使该MSR中的经验证的位被清除为0。然而,虚拟机管理器(VMM)或监督程序需要在虚拟机(VM)切换时对这些MSR的状态进行上下文切换。在该实施例中,VM上下文切换不应使这些MSR中的经验证的位丢失。
在一个实施例中,当VM退出发生时,为了解决这种情况,处理器将FRED_SSPi MSR(包括经验证的位)保存到虚拟机控制结构(VMCS)。一旦后续VM进入时,处理器将这些MSR的状态(包括经验证的位)从VMCS恢复。
示例
以下是本发明的不同实施例的示例实现方式。
示例1:一种处理器,包括:多个寄存器,用于存储多个影子栈指针(SSP),每个SSP与不同事件优先级相关联;事件处理电路,用于响应于接收到与第一事件优先级等级相关联的第一事件,从所述多个寄存器中的第一寄存器选择所述多个SSP中的第一SSP,所述第一SSP能用于标识第一影子栈的顶部;验证和利用检查电路,用于确定所述第一SSP是否先前已经被验证,其中如果所述第一SSP先前还未被验证,则发起原子操作的集合以验证所述第一SSP并且确认所述第一SSP不在使用中,所述原子操作的集合使用锁定操作来锁定数据,直到所述原子操作的集合完成,并且其中如果所述第一SSP先前已经被验证,则重新验证所述第一SSP并且确认所述第一SSP不在使用中而无需使用所述锁定操作。
示例2:如示例1的处理器,其中,所述多个SSP包括多个管理程序SSP,所述多个管理程序SSP包括所述第一SSP,所述多个管理程序SSP用于指向与管理程序特权等级相关联的对应多个管理程序影子栈。
示例3:如示例2的处理器,其中,所述多个SSP进一步包括至少一个用户级SSP,所述至少一个用户级SSP用于指向与用户特权等级相关联的用户级影子栈。
示例4:如示例1的处理器,其中,所述第一事件包括与所述第一优先级等级相关联的第一中断或第一异常。
示例5:如示例4的处理器,其中,所述多个SSP用于与对应多个事件优先级等级相关联。
示例6:如示例1的处理器,其中,确认所述第一SSP不在使用中包括:检查与所述第一SSP相关联的忙碌位的值。
示例7:如示例6的处理器,其中,验证和重新验证所述第一SSP包括:将所述第一SSP与存储在所述第一影子栈的顶部的第一令牌值进行比较。
示例8:示例7的处理器,进一步包括:执行电路,用于使用与所述第一影子栈相关联的第一数据栈来执行一条或多条指令,所述第一影子栈处于与所述第一数据栈相关联的第一管理程序特权等级。
示例9:如示例8的处理器,其中,所述事件处理电路以及所述验证和利用检查电路包括所述处理器的指令执行流水线的部分,所述验证和利用检查电路包括所述指令执行流水线的第一部分,所述第一部分用于执行与SSP验证和利用检查相关联的指令的第一集合,并且所述事件处理电路包括所述指令执行流水线的第二部分,所述第二部分用于执行与事件处理相关联的指令的第二集合。
示例10:一种方法,包括:将多个影子栈指针(SSP)存储在对应多个寄存器中,每个SSP与不同事件优先级相关联;响应于接收到与第一事件优先级等级相关联的第一事件,从所述多个寄存器中的第一寄存器选择所述多个SSP中的第一SSP,所述第一SSP能用于标识第一影子栈的顶部;确定所述第一SSP是否先前已经被验证,其中如果所述第一SSP先前还未被验证,则发起原子操作的集合以验证所述第一SSP并且确认所述第一SSP不在使用中,所述原子操作的集合使用锁定操作来锁定数据,直到所述原子操作的集合完成,并且其中如果所述第一SSP先前已经被验证,则重新验证所述第一SSP并且确认所述第一SSP不在使用中而无需使用所述锁定操作。
示例11:如示例10的方法,其中,所述多个SSP包括多个管理程序SSP,所述多个管理程序SSP包括所述第一SSP,所述多个管理程序SSP用于指向与管理程序特权等级相关联的对应多个管理程序影子栈。
示例12:如示例11的方法,其中,所述多个SSP进一步包括至少一个用户级SSP,所述至少一个用户级SSP用于指向与用户特权等级相关联的用户级影子栈。
示例13:如示例10的方法,其中,所述第一事件包括与所述第一优先级等级相关联的第一中断或第一异常。
示例14:如示例13的方法,其中,所述多个SSP用于与对应多个事件优先级等级相关联。
示例15:如示例10的方法,其中,确认所述第一SSP不在使用中包括:检查与所述第一SSP相关联的忙碌位的值。
示例16:如示例15的方法,其中,验证和重新验证所述第一SSP包括:将所述第一SSP与存储在所述第一影子栈的顶部的第一令牌值进行比较。
示例17:如示例16的方法,进一步包括:使用与所述第一影子栈相关联的第一数据栈来执行一条或多条指令,所述第一影子栈处于与所述第一数据栈相关联的第一管理程序特权等级。
示例18:一种机器可读介质,具有存储于其上的程序代码,所述程序代码当由机器执行时,使所述机器执行以下操作:将多个影子栈指针(SSP)存储在对应多个寄存器中,每个SSP与不同事件优先级相关联;响应于接收到与第一事件优先级等级相关联的第一事件,从所述多个寄存器中的第一寄存器选择所述多个SSP中的第一SSP,所述第一SSP能用于标识第一影子栈的顶部;确定所述第一SSP是否先前已经被验证,其中如果所述第一SSP先前还未被验证,则发起原子操作的集合以验证所述第一SSP并且确认所述第一SSP不在使用中,所述原子操作的集合使用锁定操作来锁定数据,直到所述原子操作的集合完成,并且其中如果所述第一SSP先前已经被验证,则重新验证所述第一SSP并且确认所述第一SSP不在使用中而无需使用所述锁定操作。
示例19:如示例18的机器可读介质,其中,所述多个SSP包括多个管理程序SSP,所述多个管理程序SSP包括所述第一SSP,所述多个管理程序SSP用于指向与管理程序特权等级相关联的对应多个管理程序影子栈。
示例20:如示例19的机器可读介质,其中,所述多个SSP进一步包括至少一个用户级SSP,所述至少一个用户级SSP用于指向与用户特权等级相关联的用户级影子栈。
示例21:如示例18的机器可读介质,其中,所述第一事件包括与所述第一优先级等级相关联的第一中断或第一异常。
示例22:如示例21的机器可读介质,其中,所述多个SSP用于与对应多个事件优先级等级相关联。
示例23:如示例18的机器可读介质,其中,确认所述第一SSP不在使用中包括:检查与所述第一SSP相关联的忙碌位的值。
示例24:如示例23的机器可读介质,其中,验证和重新验证所述第一SSP包括:将所述第一SSP与存储在所述第一影子栈的顶部的第一令牌值进行比较。
示例25:如示例24的机器可读介质,进一步包括使所述机器执行以下操作的程序代码:使用与所述第一影子栈相关联的第一数据栈来执行一条或多条指令,所述第一影子栈处于与所述第一数据栈相关联的第一管理程序特权等级。
在前述的说明书中,已经参考本发明的特定示例性实施例描述了本发明的实施例。然而,将会显而易见的是,可对这些实施例作出各种修改和改变,而不背离如所附权利要求所述的本发明的更宽泛的精神和范围。因此,说明书和附图应被认为是说明性而非限制性意义。
本发明的实施例可包括以上已被描述的各步骤。可在可用于使通用或专用处理器执行这些步骤的机器可执行指令中具体化这些步骤。替代地,可由包含用于执行这些步骤的硬连线逻辑的专用硬件部件,或可由被编程的计算机部件和定制硬件部件的任何组合来执行这些步骤。
如本文中所描述,指令可以指硬件的特定配置,诸如,被配置成用于执行某些操作或具有预定功能的专用集成电路(ASIC),或者被存储在被具体化在非瞬态计算机可读介质中的存储器中的软件指令。因此,可以使用存储在一个或多个电子设备(例如,终端站、网络元件等)上并在该一个或多个电子设备上执行的代码和数据来实现图中所示的技术。此类电子设备使用诸如非瞬态计算机机器可读存储介质(例如,磁盘;光盘;随机存取存储器;只读存储器;闪存设备;相变存储器)和瞬态计算机机器可读通信介质(例如,电、光、声或其他形式的传播信号——诸如载波、红外信号、数字信号等)之类的计算机机器可读介质来(内部地和/或通过网络与其他电子设备进行)存储和传递代码和数据。另外,此类电子设备典型地包括耦合到一个或多个其他部件的一个或多个处理器的集合,该一个或多个其他部件诸如一个或多个存储设备(非瞬态机器可读存储介质)、用户输入/输出设备(例如,键盘、触摸屏和/或显示器)以及网络连接。该处理器的集合与其他部件的耦合典型地是通过一个或多个总线和桥(也称为总线控制器)。存储设备和携载网络业务量的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此,给定电子设备的存储设备典型地存储用于在该电子设备的一个或多个处理器的集合上执行的代码和/或数据。当然,本发明的实施例的一个或多个部分可使用软件、固件和/或硬件的不同组合来实现。贯穿此具体实施方式,出于解释的目的,阐述了众多具体细节以便提供对本发明的透彻理解。然而,将会对本领域技术人员来说显而易见的是,可在没有这些具体细节中的一些细节的情况下实施本发明。在某些实例中,并不详尽描述公知的结构和功能,以免使本发明的主题模糊。因此,本发明的范围和精神应根据所附权利要求书来判定。

Claims (25)

1.一种处理器,包括:
多个寄存器,用于存储多个影子栈指针SSP,每个SSP与不同事件优先级相关联;
事件处理电路,用于响应于接收到与第一事件优先级等级相关联的第一事件,从所述多个寄存器中的第一寄存器选择所述多个SSP中的第一SSP,所述第一SSP能用于标识第一影子栈的顶部;
验证和利用检查电路,用于确定所述第一SSP是否先前已经被验证,
其中如果所述第一SSP先前还未被验证,则发起原子操作的集合以验证所述第一SSP并且确认所述第一SSP不在使用中,所述原子操作的集合使用锁定操作来锁定数据,直到所述原子操作的集合完成,以及
其中如果所述第一SSP先前已经被验证,则重新验证所述第一SSP并且确认所述第一SSP不在使用中而无需使用所述锁定操作。
2.如权利要求1所述的处理器,其中,所述多个SSP包括多个管理程序SSP,所述多个管理程序SSP包括所述第一SSP,所述多个管理程序SSP用于指向与管理程序特权等级相关联的对应多个管理程序影子栈。
3.如权利要求2所述的处理器,其中,所述多个SSP进一步包括至少一个用户级SSP,所述至少一个用户级SSP用于指向与用户特权等级相关联的用户级影子栈。
4.如权利要求1至3中任一项所述的处理器,其中,所述第一事件包括与所述第一优先级等级相关联的第一中断或第一异常。
5.如权利要求4所述的处理器,其中,所述多个SSP用于与对应多个事件优先级等级相关联。
6.如权利要求1至5中任一项所述的处理器,其中,确认所述第一SSP不在使用中包括:检查与所述第一SSP相关联的忙碌位的值。
7.如权利要求6所述的处理器,其中,验证和重新验证所述第一SSP包括:将所述第一SSP与存储在所述第一影子栈的顶部的第一令牌值进行比较。
8.如权利要求7所述的处理器,进一步包括:
执行电路,用于使用与所述第一影子栈相关联的第一数据栈来执行一条或多条指令,所述第一影子栈处于与所述第一数据栈相关联的第一管理程序特权等级。
9.如权利要求8所述的处理器,其中,所述事件处理电路以及所述验证和利用检查电路包括所述处理器的指令执行流水线的部分,所述验证和利用检查电路包括所述指令执行流水线的第一部分,所述第一部分用于执行与SSP验证和利用检查相关联的指令的第一集合,并且所述事件处理电路包括所述指令执行流水线的第二部分,所述第二部分用于执行与事件处理相关联的指令的第二集合。
10.一种方法,包括:
将多个影子栈指针SSP存储在对应多个寄存器中,每个SSP与不同事件优先级相关联;
响应于接收到与第一事件优先级等级相关联的第一事件,从所述多个寄存器中的第一寄存器选择所述多个SSP中的第一SSP,所述第一SSP能用于标识第一影子栈的顶部;
确定所述第一SSP是否先前已经被验证,
其中如果所述第一SSP先前还未被验证,则发起原子操作的集合以验证所述第一SSP并且确认所述第一SSP不在使用中,所述原子操作的集合使用锁定操作来锁定数据,直到所述原子操作的集合完成,以及
其中如果所述第一SSP先前已经被验证,则重新验证所述第一SSP并且确认所述第一SSP不在使用中而无需使用所述锁定操作。
11.如权利要求10所述的方法,其中,所述多个SSP包括多个管理程序SSP,所述多个管理程序SSP包括所述第一SSP,所述多个管理程序SSP用于指向与管理程序特权等级相关联的对应多个管理程序影子栈。
12.如权利要求11所述的方法,其中,所述多个SSP进一步包括至少一个用户级SSP,所述至少一个用户级SSP用于指向与用户特权等级相关联的用户级影子栈。
13.如权利要求10至12中任一项所述的方法,其中,所述第一事件包括与所述第一优先级等级相关联的第一中断或第一异常。
14.如权利要求13所述的方法,其中,所述多个SSP用于与对应多个事件优先级等级相关联。
15.如权利要求10至14中任一项所述的方法,其中,确认所述第一SSP不在使用中包括:检查与所述第一SSP相关联的忙碌位的值。
16.如权利要求15所述的方法,其中,验证和重新验证所述第一SSP包括:将所述第一SSP与存储在所述第一影子栈的顶部的第一令牌值进行比较。
17.如权利要求16所述的方法,进一步包括:
使用与所述第一影子栈相关联的第一数据栈来执行一条或多条指令,所述第一影子栈处于与所述第一数据栈相关联的第一管理程序特权等级。
18.一种机器可读介质,具有存储于其上的程序代码,所述程序代码当由机器执行时,使所述机器执行以下操作:
将多个影子栈指针SSP存储在对应多个寄存器中,每个SSP与不同事件优先级相关联;
响应于接收到与第一事件优先级等级相关联的第一事件,从所述多个寄存器中的第一寄存器选择所述多个SSP中的第一SSP,所述第一SSP能用于标识第一影子栈的顶部;
确定所述第一SSP是否先前已经被验证,
其中如果所述第一SSP先前还未被验证,则发起原子操作的集合以验证所述第一SSP并且确认所述第一SSP不在使用中,所述原子操作的集合使用锁定操作来锁定数据,直到所述原子操作的集合完成,以及
其中如果所述第一SSP先前已经被验证,则重新验证所述第一SSP并且确认所述第一SSP不在使用中而无需使用所述锁定操作。
19.如权利要求18所述的机器可读介质,其中,所述多个SSP包括多个管理程序SSP,所述多个管理程序SSP包括所述第一SSP,所述多个管理程序SSP用于指向与管理程序特权等级相关联的对应多个管理程序影子栈。
20.如权利要求19所述的机器可读介质,其中,所述多个SSP进一步包括至少一个用户级SSP,所述至少一个用户级SSP用于指向与用户特权等级相关联的用户级影子栈。
21.如权利要求18至20中任一项所述的机器可读介质,其中,所述第一事件包括与所述第一优先级等级相关联的第一中断或第一异常。
22.如权利要求21所述的机器可读介质,其中,所述多个SSP用于与对应多个事件优先级等级相关联。
23.如权利要求18至22中任一项所述的机器可读介质,其中,确认所述第一SSP不在使用中包括:检查与所述第一SSP相关联的忙碌位的值。
24.如权利要求23所述的机器可读介质,其中,验证和重新验证所述第一SSP包括:将所述第一SSP与存储在所述第一影子栈的顶部的第一令牌值进行比较。
25.如权利要求24所述的机器可读介质,进一步包括使所述机器执行以下操作的程序代码:
使用与所述第一影子栈相关联的第一数据栈来执行一条或多条指令,所述第一影子栈处于与所述第一数据栈相关联的第一管理程序特权等级。
CN202011458472.3A 2020-03-28 2020-12-11 用于高效地管理和处理影子栈的装置和方法 Pending CN113536293A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/833,599 2020-03-28
US16/833,599 US11243769B2 (en) 2020-03-28 2020-03-28 Shadow stack ISA extensions to support fast return and event delivery (FRED) architecture

Publications (1)

Publication Number Publication Date
CN113536293A true CN113536293A (zh) 2021-10-22

Family

ID=73726571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011458472.3A Pending CN113536293A (zh) 2020-03-28 2020-12-11 用于高效地管理和处理影子栈的装置和方法

Country Status (7)

Country Link
US (2) US11243769B2 (zh)
EP (1) EP3885950B1 (zh)
JP (1) JP7553019B2 (zh)
CN (1) CN113536293A (zh)
AU (1) AU2020294206A1 (zh)
SG (1) SG10202012201WA (zh)
TW (1) TW202143072A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11372969B1 (en) * 2021-09-17 2022-06-28 Polyverse Corporation Randomized canary and shadow stack for JIT-ROP defense

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3206523B2 (ja) 1997-10-27 2001-09-10 日本電気株式会社 数値制御装置を有する複合巻線機
US6751749B2 (en) 2001-02-22 2004-06-15 International Business Machines Corporation Method and apparatus for computer system reliability
DE102005026721A1 (de) 2005-06-09 2007-01-11 Rohde & Schwarz Gmbh & Co. Kg Verfahren zur Speicherverwaltung von digitalen Recheneinrichtungen
US9569612B2 (en) * 2013-03-14 2017-02-14 Daniel Shawcross Wilkerson Hard object: lightweight hardware enforcement of encapsulation, unforgeability, and transactionality
US20160381050A1 (en) 2015-06-26 2016-12-29 Intel Corporation Processors, methods, systems, and instructions to protect shadow stacks
US10091224B2 (en) 2015-10-31 2018-10-02 Mcafee, Llc Implicit crowdsourcing for untracked correction or verification of categorization information
US10394556B2 (en) 2015-12-20 2019-08-27 Intel Corporation Hardware apparatuses and methods to switch shadow stack pointers
US10430580B2 (en) 2016-02-04 2019-10-01 Intel Corporation Processor extensions to protect stacks during ring transitions
US10885183B2 (en) * 2017-09-28 2021-01-05 International Business Machines Corporation Return oriented programming attack protection

Also Published As

Publication number Publication date
US20210303304A1 (en) 2021-09-30
AU2020294206A1 (en) 2021-10-14
US11656873B2 (en) 2023-05-23
US11243769B2 (en) 2022-02-08
EP3885950B1 (en) 2024-03-13
JP7553019B2 (ja) 2024-09-18
EP3885950A1 (en) 2021-09-29
US20220171625A1 (en) 2022-06-02
SG10202012201WA (en) 2021-10-28
TW202143072A (zh) 2021-11-16
JP2021157766A (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
US11762982B2 (en) Processor extensions to protect stacks during ring transitions
US20230376252A1 (en) Processors, methods, systems, and instructions to protect shadow stacks
CN110659244A (zh) 内联编码能力
US12001842B2 (en) Hardware apparatuses and methods to switch shadow stack pointers
CN108205502B (zh) 轻量可信任务
CN111767245A (zh) 用于验证输入-输出存储器管理单元向设备附连的装置、方法和系统
CN113448620A (zh) 用于对代码进行分区操作的指令的装置、方法和系统
CN113050989A (zh) 用于以密码方式与数据联系的使用限制的指令的装置、方法和系统
CN114661410A (zh) 高效更新安全仲裁模式模块的设备、系统和方法
US11656873B2 (en) Shadow stack ISA extensions to support fast return and event delivery (FRED) architecture
CN116340948A (zh) 用于实现信任域的输入/输出扩展的电路和方法
CN116302104A (zh) 用于实现通过有界能力寻址的非冗余元数据存储装置的电路和方法
EP4020274A1 (en) Apparatuses, methods, and systems for instructions to allow trusted execution environments to react to asynchronous exits
CN117063162A (zh) 用于在可信区中实现共享虚拟存储器的装置和方法
US20240330000A1 (en) Circuitry and methods for implementing forward-edge control-flow integrity (fecfi) using one or more capability-based instructions
TWI852619B (zh) 用以保護影子堆疊之處理器
CN116339827A (zh) 用于利用描述符实现基于能力的分区切换的电路系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination