CN113892090A - 多级高速缓存安全性 - Google Patents

多级高速缓存安全性 Download PDF

Info

Publication number
CN113892090A
CN113892090A CN202080038470.0A CN202080038470A CN113892090A CN 113892090 A CN113892090 A CN 113892090A CN 202080038470 A CN202080038470 A CN 202080038470A CN 113892090 A CN113892090 A CN 113892090A
Authority
CN
China
Prior art keywords
cache
level
data
security
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080038470.0A
Other languages
English (en)
Inventor
阿布希吉特·A·查查德
D·M·汤普森
N·布霍里亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of CN113892090A publication Critical patent/CN113892090A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1081Address translation for peripheral access to main memory, e.g. direct memory access [DMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/12Replacement control
    • G06F12/121Replacement control using replacement algorithms
    • G06F12/128Replacement control using replacement algorithms adapted to multidimensional cache systems, e.g. set-associative, multicache, multiset or multilevel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/14Protection against unauthorised use of memory or access to memory
    • G06F12/1416Protection against unauthorised use of memory or access to memory by checking the object accessibility, e.g. type of access defined by the memory independently of subject rights
    • G06F12/1425Protection against unauthorised use of memory or access to memory by checking the object accessibility, e.g. type of access defined by the memory independently of subject rights the protection being physical, e.g. cell, word, block
    • G06F12/1441Protection against unauthorised use of memory or access to memory by checking the object accessibility, e.g. type of access defined by the memory independently of subject rights the protection being physical, e.g. cell, word, block for a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/14Protection against unauthorised use of memory or access to memory
    • G06F12/1458Protection against unauthorised use of memory or access to memory by checking the subject access rights
    • G06F12/1483Protection against unauthorised use of memory or access to memory by checking the subject access rights using an access-table, e.g. matrix or list
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/78Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data
    • G06F21/79Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data in semiconductor storage media, e.g. directly-addressable memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/466Transaction processing
    • G06F9/467Transactional memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • G06F12/0828Cache consistency protocols using directory methods with concurrent directory accessing, i.e. handling multiple concurrent coherency transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0864Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using pseudo-associative means, e.g. set-associative or hashing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1024Latency reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1028Power efficiency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1052Security improvement
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

在所描述实例中,一致存储器系统包含中央处理单元(CPU)以及一级及二级高速缓存。所述CPU经布置以执行程序指令(1000)以在至少第一或第二安全上下文中操纵数据。所述第一及第二高速缓存中的每一者存储(例如,1050)用于指示通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文的安全代码。所述一级及二级高速缓存响应于比较(1020)高速缓存的相应行的所述安全代码且作为响应执行(1030)高速缓存一致性操作而维持一致性。

Description

多级高速缓存安全性
背景技术
处理装置可经形成为集成电路的部分,例如片上系统(SoC)的一部分。在一些实例中,SoC包含至少一个中央处理单元(CPU),其中SoC的每一CPU经耦合到集成(例如,共享)存储器系统。所述存储器系统可包含例如多级高速缓存存储器(例如,静态RAM—SRAM—形成在SoC的集成电路上)及至少一个主存储器(例如,动态RAM—DRAM及/或DDR—可在SoC的集成电路外部的存储器)。
当将越来越强大的CPU添加(或耦合)到处理装置时,越来越复杂的存储器架构不断提供可扩展性挑战。当多个CPU共享存储器系统的共同地址空间时,可扩展性挑战仍然存在,且可能变得甚至更大。共享存储器的共同地址空间的部分可包含一致高速缓存的各个级(例如,其中各个级可含有用于存储具有唯一地址的数据的不同存储器)。
在一个实例中,高速缓存存储器系统中的CPU可每4个周期消耗整个高速缓存行,这对被设计为在各种CPU之间一致地共享经存储高速缓存信息的高速缓存提出额外处理需求。当高速缓存经配置以保护高速缓存存储器的某些区域免于被原本将被容许存取高速缓存的行的至少一个CPU读取或更改时,此类延时可被延长。提高此类系统的数据安全性可能需要提高的处理能力及/或更有效的处理架构。
发明内容
在所描述实例中,一致存储器系统包含中央处理单元(CPU)以及一级及二级高速缓存。所述CPU经布置以执行程序指令以在至少第一或第二安全上下文中操纵数据。所述第一及第二高速缓存中的每一者存储用于指示通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文的安全代码。所述一级及二级高速缓存响应于比较高速缓存的相应行的所述安全代码且作为响应执行高速缓存一致性操作而维持一致性。
附图说明
图1是展示形成为片上系统的实例双核标量/矢量处理器的高级系统图。
图2是展示实例阶层式存储器系统的级的高级图。
图3展示具有一致及阶层式存储器架构的实例一核或任选地两核标量及/或矢量处理器系统300。
图4展示一致及阶层式存储器架构的二级的实例统一存储器控制器。
图5A展示每物理存储体具有4个虚拟存储体的图4的系统的实例2级存储器存储体接口。
图5B展示每物理存储体具有2个虚拟存储体的图4的系统的实例2级存储器存储体接口。
图6A展示实例L1D(1级数据)控制器物理结构。
图6B展示实例2级(L2)控制器物理结构。
图7A展示在实例高速缓存操作之前的实例级数据(L1D)高速缓存标记值。
图7B展示在实例高速缓存操作之后的实例级数据(L1D)高速缓存标记值。
图8A展示在实例高速缓存操作之前的实例L2影子结构。
图8B展示在行的L1D分配之后的实例L2影子结构,其中经修改行从主高速缓存移动到牺牲高速缓存,且从牺牲高速缓存移动到L2。
图9A是多级高速缓存系统中的一致读取操作的实例过程的流程图。
图9B是多级高速缓存系统中的窥探读取操作的实例过程的流程图。
图9C是多级高速缓存系统中的CMO(高速缓存维持操作)读取操作的实例过程的流程图。
图10是多级高速缓存系统中的DMA写入操作的实例过程的流程图。
图11是多级高速缓存系统中的读取分配操作的实例过程的流程图。
图12是多级高速缓存系统中的牺牲写入操作的实例过程的流程图。
具体实施方式
在附图中,类似参考数字指代类似元件,且各种特征不一定按比例绘制。
处理装置可经形成为集成电路,例如片上系统(SoC)的部分。如下文中所描述,处理装置可包含用于保护存储器系统(例如多级高速缓存系统)中的数据的安全性的实例安全性特征。
图1是展示形成为片上系统的实例双核标量/矢量处理器的高级系统图。SoC 100是包含中央处理单元(CPU)110核心的实例双核标量及/或矢量处理器。CPU 110核心包含一级指令高速缓存(L1I)111、一级数据高速缓存(L1D)112及例如双流式引擎(2xSE)的流式引擎(SE)113。SoC 100可进一步包含任选CPU 120核心,所述CPU 120核心包含一级指令高速缓存(L1I)121、一级数据高速缓存(L1D)122及流式引擎123。在各种实例中,CPU 110核心及/或CPU 120核心可包含可经布置用于标量及/或矢量处理的寄存器文件、算术逻辑单元、乘法器及程序流控制单元(未具体展示)。SoC 100包含经布置以选择性地高速缓存指令及数据两者的二级统一(例如,组合指令/数据)高速缓存(L2)131。
在实例中,CPU 110、一级指令高速缓存(L1I)111、一级数据高速缓存(L1D)112、流式引擎113及二级统一高速缓存(L2)131经形成在单个集成电路上。在实例中,标量中央处理单元(CPU)120核心、一级指令高速缓存(L1I)121、一级数据高速缓存(L1D)122、流式引擎123及二级统一高速缓存(L2)131经形成在包含CPU 110核心的单个集成电路上。
在实例中,SoC 100经形成在单个集成电路上,所述集成电路还包含辅助电路,例如动态功率控制(DPC)通电/断电电路141、仿真/跟踪电路142、测试设计(DFT)可编程内建自测试(PBIST)及串行消息系统(SMS)电路143以及时控电路144。存储器控制器(例如,多核共享存储器控制器3级“MSMC3”)151耦合SoC 100且可与SoC 100集成在同一集成电路上。MSMC3可包含例如直接存储器存取(DMA)的存储器存取功能,使得MSMC3可用作DMA控制器(或与DMA控制器协作地起作用)。
CPU 110在程序控制下操作以对存储在存储器系统(例如,包含由多个核心共享的存储器的存储器系统)中的数据执行数据处理操作。用于控制CPU 110的程序包含在由CPU110进行解码及执行之前取出的多个指令。
SoC 100包含数个高速缓存存储器。在实例中,一级指令高速缓存(L1I)111存储由CPU 110使用的指令。CPU 110从一级指令高速缓存111存取(包含尝试存取)多个指令中的任一者。一级数据高速缓存(L1D)112存储由CPU 110使用的数据。CPU 110从一级数据高速缓存112存取(包含尝试存取)任何经寻址数据(例如,多个指令中的任一者指向的任何数据)。每一CPU(例如,110及120)核心的一级高速缓存(例如,L1I 111、L1D 112及2xSE 113)由二级统一高速缓存(L2)131支持。
在对相应一级高速缓存的任何存储器请求的高速缓存未命中的情况下,从二级统一高速缓存131寻找经请求信息(例如,指令代码、非流数据及/或流数据)。在经请求信息经存储在二级统一高速缓存131中的情况下,将经请求信息供应到提出请求的一级高速缓存以将经请求信息中继到CPU 110。同时可将经请求信息中继到提出请求的高速缓存及CPU110两者以减少到CPU 110的存取延时。
流式引擎113及123可在结构及操作上类似。在SoC 100中,流式引擎113将数据从二级统一高速缓存131(L2)传送到CPU 110。流式引擎123将数据从二级统一高速缓存131传送到CPU 110。在所述实例中,每一流式引擎113及123控制(及以其它方式管理)最多两个数据流。
每一流式引擎113及123经布置以传送所定义类型(例如,所定义结构及/或协议)的数据,其中数据作为流来传送。流包含选定的、所定义类型的元素的序列。操作(例如,消耗)流的程序被例子化(例如,将处理器配置为专用机器)以循序地读取所包含数据且依次处理所述数据的每一元素。
在实例中,流数据包含所定义开始及结束时间的指示(例如,其中所述指示可用于确定相应的开始及/或结束时间点)。流数据包含在整个流中通常具有固定元素大小及类型的元素。流数据可包含元素的固定序列,其中程序无法随机地寻找寻找包含在流中的元素。在实例中,流数据在活动时是只读的,因此程序无法在从流读取的同时写入到流。
当流被实例流式引擎打开时,所述流式引擎:计算地址;从二级统一高速缓存取出所定义数据类型;执行数据类型操纵;且直接将经处理数据递送到CPU内的请求编程执行单元。数据类型操纵可包含例如零扩展、符号扩展及数据元素分类/交换(例如,矩阵转置)的操纵。
在各种实例中,流式引擎经布置以对所定义数据类型(例如,良性数据)执行实时数字滤波操作。此类引擎减少存储器存取时间(例如,原本由提出请求的处理器遇到),这释放提出请求的处理器以执行其它处理功能。
在各种实例中,流式引擎提高一级高速缓存的操作效率。例如,流式引擎可最小化高速缓存未命中停顿的数目,因为流缓冲区可绕过L1D高速缓存(例如,111)。而且,流式引擎可减少维持控制循环及管理相应地址指针原本所需的标量操作的数目。流式引擎可包含减少在产生地址及管理控制循环逻辑时原本遇到的软件执行(例如,这释放CPU以执行其它任务)的硬件存储器地址产生器。
二级统一高速缓存131进一步经由存储器控制器151耦合到更高级存储器系统组件。存储器控制器151通过存取外部存储器(图1中未展示)而处置发生在二级统一高速缓存131中的高速缓存未命中。存储器控制器131经布置以控制以存储器为中心的功能,例如可高速缓存性确定、错误检测及校正以及地址转译。
实例SoC 100系统包含多个CPU 110及120。在包含多个CPU的系统中,存储器控制器151可经布置以控制多个CPU之间的数据传送且维持可相互存取外部存储器的处理器当中的高速缓存一致性。
图2是展示实例阶层式存储器系统的级的高级图。存储器系统200是实例阶层式存储器系统,其包含CPU 210及用于维持高速缓存及存储器的三个相应级的存储器一致性的控制器(例如,222、232及241)。一级高速缓存(例如,L1数据高速缓存)包含L1 SRAM(静态ram)221、1级控制器222、L1高速缓存标记223及牺牲高速缓存标记224。例如,一级高速缓存包含可由CPU 210存取的存储器且经布置以代表CPU 210暂时存储数据。二级高速缓存(例如,L2统一高速缓存)包含L2 SRAM 231、2级控制器232、L2高速缓存标记233、影子L1主高速缓存标记234及影子L1牺牲高速缓存标记234。例如,二级高速缓存包含可由CPU 210存取的存储器且经布置以代表CPU 210暂时存储数据。存储器系统200自始至终是一致的且高速缓存的各个级的存储器区可包含可由CPU寻址的本地存储器(例如,包含高速缓存行)。表1展示存在于存储器系统200中的不同存储器区,及每一存储器区是否可经配置为一致。
表1
Figure BDA0003371191570000051
CPU 110双向耦合到1级控制器222,所述1级控制器又双向耦合到2级控制器232,所述2级控制器又双向耦合到3级控制器234,使得高速缓存存储器的至少三个级经耦合到CPU 210。进入及离开L1 SRAM 221高速缓存存储器的数据传送由1级控制器222来控制。进入及离开L2 SRAM 231高速缓存存储器的数据传送由2级控制器232来控制。
1级控制器222经耦合到(且在一些实例中包含)L1高速缓存标记332及牺牲高速缓存标记224。L1高速缓存标记223是相应L1高速缓存行的非数据部分,其具有存储在SRAM221高速缓存存储器中的相应数据。L1牺牲高速缓存标记(例如,存储在标记ram中)224是高速缓存行的非数据部分,其中每一高速缓存行包含存储在SRAM 221高速缓存存储器中的数据的相应行。在实例中,从L1高速缓存逐出的高速缓存行经复制到牺牲高速缓存中,使得例如L1高速缓存标记223经复制到(或以其它方式经映射到)L1牺牲高速缓存标记224中。牺牲高速缓存可例如将原本逐出的数据存储在L1级处,使得“命中”存储在牺牲高速缓存中的行的CPU 210的存储器请求可得到响应,而无须存取L2级高速缓存(例如,使得在此类情况下存取时间减少)。
2级控制器232经耦合到(例如,包含)两组高速缓存标记。第一组高速缓存标记包含L2高速缓存标记233,其中是相应L2高速缓存行的非数据部分,且其中每一高速缓存行包含存储在SRAM 231高速缓存存储器中的数据的相应行。第二组高速缓存标记包含影子L1主高速缓存标记234及影子L1牺牲高速缓存标记235。影子L1主高速缓存标记234通常对应于L1高速缓存标记223(例如,指向或包含与L1高速缓存标记223相同的信息)。影子L1牺牲高速缓存标记235通常对应于L1牺牲高速缓存标记224(例如,指向或包含与L1牺牲高速缓存标记224相同的信息)。影子L1主高速缓存标记234至少包含L1高速缓存标记223中的对应高速缓存行的有效及脏状态,而影子L1牺牲高速缓存标记235至少包含L1牺牲高速缓存标记224中的对应高速缓存行的有效及脏状态。
2级控制器232产生窥探事务以维持(例如,包含更新及实现)二级高速缓存与一级高速缓存的状态的读取及写入一致性。例如,2级控制器232将窥探事务发送到1级控制器以确定L1D高速缓存行的状态且更新与被查询的L1D高速缓存行有关的影子标记(例如,234或235)。影子标记(例如,234或235)可仅用于窥探事务,所述窥探事务用于维持L2 SRAM与一级数据高速缓存的一致性。在实例中,可忽略对更高级高速缓存中的所有高速缓存行的更新,这提高L1到L2高速缓存接口的效率。
响应于由1级控制器222返回的窥探请求数据,2级控制器232更新对应于被窥探的L1高速缓存行的影子标记(例如,234或235)。对其执行更新的事件包含例如L1D高速缓存行的分配及例如对存储在L1 SRAM 221中的数据的脏修改及作废修改的事件。
硬件高速缓存一致性是一种允许被称为“可共享性域”(例如,跨不同CPU,或甚至在单个CPU内共享)的不同群组中的数据及程序高速缓存,以及不同请求器(包含可能不包含高速缓存的那些请求器)有权存取(例如,读取)存储器中的给定地址的最新数据值的技术。在理想情况下,这个“一致”数据值需要准确地反映给可共享性域中的每个观察者。观察者可为例如发出用以读取给定存储器位置的命令的高速缓存或请求器的装置。
通过使用存储器属性,某些存储器位置可被标记为“可共享”,而其它存储器位置可被标记为“不可共享”。为了在理想系统中维持完整的一致性,仅可共享存储器区(例如,其中一区可为一或多个连续位置)需要在作为同一可共享性域的部分的高速缓存/请求器(观察者)之间保持一致。不需要维持不可共享存储器位置的一致性。下文中描述经布置以有效地实现可共享存储器区的一致性的方法及设备。例如,当可共享存储器区是一致的时,其是可共享的,因为可共享存储器区的所有数据位置具有指派给可共享存储器区的每一位置的数据的最新值。
下文中描述实例功能上正确的一致系统的技术、控制逻辑及状态信息。每一观察者可向标记为可共享的位置发出读取(及任选地写入)请求。此外,高速缓存还可响应于窥探操作的类型而向其发出窥探请求,要求读取、返回或甚至更新其高速缓存状态。
在多级高速缓存阶层中,高速缓存阶层的中间级(例如,L2)既能够发送又能够接收窥探操作(例如,以维持高速缓存的不同级之间的一致性)。相比之下,高速缓存层级的第一级(例如,1级控制器222)接收窥探操作但不分派窥探操作。此外,高速缓存阶层的最后一级(例如,3级控制器241)可分派窥探操作但不接收窥探操作。通常,在较高高速缓存级中固有地将窥探操作分派到高速缓存阶层内的较低高速缓存级(例如,其中较低表示更靠近CPU处理元件的高速缓存结构,而较高表示更远离CPU处理元件的高速缓存结构)。
2级控制器232包含用于准确地查询、确定及处理1级高速缓存(例如,L1D 112)中的一致(可共享)高速缓存行的当前状态的硬件、控制逻辑及状态信息,其中较低级高速缓存经布置为异构高速缓存系统。在实例中,1级控制器222管理包含主高速缓存(例如,组关联)及牺牲高速缓存(例如,全关联)的异构高速缓存系统。
存储器系统200的一致性可通过使用MESI(修改-排他-共享-无效)一致性方案(包含其衍生物)记录每一高速缓存行的高速缓存的每一高速缓存行状态来强制执行。标准的MESI高速缓存一致性协议包含四种状态:每一高速缓存行的修改、排他、共享、无效(或其衍生物)。
修改状态指示相应高速缓存行中的值相对于主存储器被修改,且高速缓存行中的值排他地保存在当前高速缓存中。修改状态指示所述行中的值在同一可共享性域中的任何其它高速缓存中明确地不存在或无效。
排他状态指示相应高速缓存行中的值未相对于主存储器被修改,但高速缓存行中的值排他地保存在当前高速缓存中。这指示所述行中的值在同一可共享性域中的任何其它高速缓存中明确地不存在或无效。
共享状态指示相应高速缓存行中的值未相对于主存储器被修改。高速缓存行中的值可存在于同一可共享性域中的多个高速缓存中。
无效状态指示相应高速缓存行中的任何值被视为好像它们不存在于所述高速缓存中一样(例如,作为被作废或逐出的结果)。
可共享性域可被定义为必须彼此保持一致的高速缓存的集合。并非所有MESI状态均必定需要实施具有高速缓存阶层的多个级的一致系统。例如,可消除共享状态(例如,以性能为代价),这导致MEI一致性系统。在MEI一致性系统中,整个系统中的恰好一个高速缓存可在给定时间保存每一MEI高速缓存行的副本,而不管所述高速缓存行是否被修改(或将来是否可能被修改)。
一致高速缓存系统中的一致性单元是单个高速缓存行,使得数据长度(例如,用于存取高速缓存行内的数据的地址的数目,无论是32、64还是128字节)被视为一致性的原子单元。在实例系统300中(下文中关于图3所描述),L1D与L2之间共享的高速缓存机构包含128字节的一致性单元。通常,高速缓存的一级及二级的结构及跟踪机构以原子方式对选定一致性单元进行操作。
出于维持高速缓存一致性的目的,可启动各种一致性事务。此类一致性事务包含例如读取、写入、窥探、牺牲的事务类型。每一事务类型可具有多种形式/变体,所述形式/变体由总线信令协议(例如VBUSM.C协议规范)所包含。
读取一致性事务包含返回给定地址的“当前”(例如,最近)值,无论那个值是存储在端点处(例如,在外部存储器中),还是存储在一致性系统中的高速缓存中。
写入一致性事务包含更新给定地址的当前值,及作废存储在一致性系统中的高速缓存中的副本。
高速缓存维持操作(CMO)包含启动待在一致高速缓存(L1D及L2)中对单个地址采取的动作的操作。
窥探一致性事务(“窥探”)包含读取、作废或既读取又作废存储在高速缓存中的数据的副本。窥探由所述阶层的较高级控制器对所述阶层的下一较低级的高速缓存启动。窥探可由较低级高速缓存的控制器根据需要进一步传播到所述阶层的甚至更低级以维持一致性。
牺牲一致性事务包含将牺牲高速缓存行(“牺牲”)从所述阶层中的较低级高速缓存发送到高速缓存阶层的下一较高级。牺牲用于将经修改数据传送到阶层的下一级。在一些情况下,牺牲可进一步传播到高速缓存阶层的更高级。在其中L1D将牺牲发送到L2以获取DDR或L3 SRAM中的地址且所述行不存在于L2高速缓存中的实例情况下,L2控制器经布置以将牺牲转发到高速缓存阶层的下一级。
表2描述可在L2及与L2高速缓存交互的各种主控之间启动的实例一致命令。
表2
主控 主控启动 L2启动
PMC 读取
MMU 读取
流式引擎(SE) 读取、CMO
DMC 读取、写入、牺牲 窥探
MSMC(L3控制器) 窥探、DMA读取、DMA写入 读取、写入、牺牲
2级控制器232维持本地信息(例如,在2级影子标记中),所述本地信息经更新以反映发生在一级高速缓存内的硬件FIFO、RAM及逻辑中的经监测状态信息的每一变化,使得可在2级高速缓存本地确定存在于L1控制器中的主高速缓存及牺牲高速缓存两者中的所有一致高速缓存行的当前(例如,最近)状态。1级高速缓存与2级高速缓存之间的专用总线上的管线式硬件可提高保持2级影子寄存器被更新的速度且减少对用于在1级高速缓存与2级高速缓存之间读取及写入数据的双向数据存取总线的需求。准确地更新影子信息维持一致硬件高速缓存系统的正确数据值及功能。
图3展示具有一致及阶层式存储器架构的实例一核或任选地两核标量及/或矢量处理器系统300。系统300是实例一致共享存储器系统,例如系统200或SoC 100。系统300包含至少一个CPU核心。例如,第一核心可包含第一CPU 310、DMC 361、32KB L1D高速缓存312、PMC 362、32KB L1I高速缓存311及双流缓冲区313。任选第二核心可包含与第一核心类似的组件。CPU 310(及第二核心320,如果存在的话)经由相应接口耦合到UMC 363,所述UMC经布置以控制L2高速缓存标记及存储器。
一般来说,系统300包含各种高速缓存控制器,例如程序存储器控制器(PMC)362(例如,用于控制到及来自1级程序311高速缓存的数据传送)及数据存储器控制器(DMC)361(例如,用于控制进入及离开1级数据高速缓存312的数据传送)。如图1中所展示,L2高速缓存可在两个处理核心之间共享。系统300还包含统一存储器控制器(UMC)363(例如,用于控制2级与3级高速缓存之间的数据传送)。UMC 363由例如下文中关于图4进行描述的2级高速缓存所包含。UMC 363经耦合到MMU(存储器管理单元)391及MSMC 351。DMC 361、PMC 362、SE313、MSMC 351及MMU 391是请求器,其全部可存取存储在L2高速缓存中的存储器。
在实例中,系统300是用于定点及/或浮点DSP(数字信号处理器)的管线式高速缓存及存储器控制器系统。系统300包含至少一个此CPU核心(其中每一CPU核包含相应私用L1高速缓存、控制器及流缓冲区)及共享L2高速缓存控制器。系统300可提供每周期高达2048位数据的带宽,其为相对于上一代系统的8倍带宽改进。L1D可维持每周期将512位数据传送到CPU,且L2高速缓存可每个周期将1024位数据传送到双流缓冲区。L1及L2控制器有能力将多个事务排队到存储器的下一更高级,且可对乱序数据返回进行重新排序。L1P 311控制器支持来自CPU的分支退出预测且可将多个预取未命中排队到由UMC 363所包含的L2高速缓存。
系统300包含关于其数据及TAG ram的全软错误校正码(ECC)(例如,下文中关于图4所描述)。所采用ECC方案除对存储器存储数据进行错误校正之外,还为通过处理器管线及接口寄存器传输的数据提供错误校正。系统300支持全存储器一致性,其中例如内部(例如,由1级及2级高速缓存所包含)高速缓存及存储器相对于彼此且相对于外部高速缓存及存储器(例如用于3级高速缓存的MSMC 351及例如四级及最终级存储器阶层处的外部存储器)保持一致。UMC 363维持多个L1D之间的一致性且维持所述L1D与高速缓存及存储器的较高、连续级中的每一者之间的一致性。UMC 363可通过响应于流式引擎读取而窥探(例如,经由与流数据路径分开的管线)L1D高速缓存行来维持与双流式引擎的一致性。
系统300支持贯穿虚拟存储器方案的一致性,且包含地址转译、μTLB(微转译后备缓冲区)、L2页表查询(page table walks)及L1P高速缓存作废。UMC 363可支持一个或两个流缓冲区,每一缓冲区具有两个流。流缓冲区数据与L1D高速缓存保持一致,其中每一流缓冲区具有到L2高速缓存的管线式高带宽接口。
系统300包含系统300中的不同阶层的各种组件之间的实例接口。可能除CPU到DMC(CPR-DMC)及CPU到PMC(CPR-PMC)接口以外,可在管线式多事务标准(例如,VBUSM或MBA)中构建级间接口及数据路径。
实例接口包含CPU-DMC、CPU-PMC、DMC-UMC、PMC-UMC、SE-UMC、UMC-MSMC、MMU-UMC及PMC-MMU接口。CPU-DMC包含512位矢量读取及512位矢量写入及64位标量写入。CPU-PMC包含512位读取。DMC-UMC包含用于执行高速缓存事务、窥探事务、L1DSRAM DMA及外部MMR存取的512位读取及512位写入接口(例如,其中每一此接口可处置2个数据阶段事务)。PMC-UMC接口包含512位读取(其支持1或2个数据阶段读取)。SE-UMC接口包含512位读取(其支持1或2个数据阶段读取)。UMC-MSMC UMC接口包含512位读取及512位写入(具有重叠的窥探及DMA事务)。MMU-UMC接口包含来自L2的页表查询。PMC-MMU接口包含到MMU的μTLB未命中。
L1P 311包含作为具有64字节高速缓存行大小的4路组关联的32KB L1P高速缓存,其中每一行被虚拟编索引及标记(48位虚拟地址)。L1P 311包含对L1P未命中的自动预取(其中来自L2的预取未命中可包含两个数据阶段数据返回。L1P 311经耦合到PMC 362(例如,由PMC 362所包含)且由PMC 362来控制。
PMC 362支持有能力将可变数目个(例如,高达8个)取出分组请求排队到UMC(例如,以在程序管线中启用更深预取)的预取及分支预测。
PMC 362包含具有对数据及标记RAM的奇偶校验保护的错误校正码(ECC)(例如,对标记及数据RAM的1位错误检测)。数据RAM奇偶校验保护每32位被供应1奇偶校验位)。在标记RAM中,奇偶校验错误可强制进行自动作废及预取操作。
PMC 362支持全局高速缓存一致性操作。PMC 362可单周期高速缓存作废对三种模式(例如,全高速缓存行、MMU页表基0及MMU页表基1)的支持。
PMC 362通过对未命中的虚拟到物理寻址来提供虚拟存储器且并入μTLB以处置地址转译及进行代码保护。
PMC 362通过包含可在读取时返回以指示从其读取数据的高速缓存级的存取代码及可经返回以指示所有仿真读取及写入的通过/失败状态的总线错误代码来提供仿真及调试能力。PMC 362提供扩展式控制寄存器存取,其包含可通过非管线式接口从CPU存取的L1PECR寄存器。扩展式控制寄存器不是存储器映射的,而是可经由MOVC CPU指令来映射。
L1D高速缓存312是直接映射高速缓存,且与16条目全关联牺牲高速缓存并行镜像。L1D高速缓存312包含可配置为低到8KB高速缓存的32KB存储器。L1D高速缓存312包含双数据路径(例如,用于64位标量或1Kb矢量操作数)。L1D高速缓存312包含128字节高速缓存行大小。LID高速缓存312包含对回写及直写模式两者的读取分配高速缓存支持。LID高速缓存312被物理编索引、被物理标记(44位物理地址),支持推测加载及未命中下命中,已发布写入未命中支持,且对LID内的所有未完成写入事务提供写入合并。LID高速缓存312支持对未完成事务的FENCE操作。LID是自动刷新及空闲刷新。
LID高速缓存312包含用于支持来自CPU及DMA的存取的LID SRAM。可用SRAM的数量由L1D存储器及L1D高速缓存大小的总和来确定。
DMC 361包含查找表及直方图能力以支持16个并行表查找及直方图。DMC 361可初始化查找表且响应于选定并行度而将L1D SRAM动态地配置成多个区/路。
DMC 361包含64位及512位CPU加载/存储带宽、1024位LID存储器带宽。DMC 361为64位宽存储体的16个接口提供支持,其中对L2具有高达8个未完成加载未命中。物理存储体及虚拟存储体在下文中关于图5A及图5B进行描述。
DMC 361包含错误检测及校正(ECC)。DMC 361包含对32位粒度的ECC检测及校正。这包含关于数据及标记RAM的全ECC,其中数据及标记RAM两者具有1位错误校正及2位错误检测。DMC 361将关于写入及牺牲的ECC校验子向外提供到L2。DMC 361从L2接收具有读取数据的ECC校验子,且在将经验证数据呈现给CPU之前执行检测及校正。DMC 361提供对牺牲高速缓存行的全ECC。DMC 361提供读取-修改-写入支持以防止对部分行写入的奇偶校验损坏。ECC L2-L1D接口延迟对读取响应数据管线ECC保护的校正。
DMC 361通过在读取时返回存取代码(例如,DAS)以指示从其读取数据的高速缓存级来提供仿真及调试执行。总线错误代码可经返回以指示仿真读取及写入的通过/失败状态。高速缓存标记RAM的内容可经由ECR(扩展式控制寄存器)来存取。
DMC 361将对交换操作或比较及交换操作的原子操作提供到可高速缓存存储器空间且将增量提供到可高速缓存存储空间。
DMC 361提供一致性,包含主及牺牲高速缓存两者中的全MESI(修改-排他-共享-无效)支持。DMC 361提供对全局高速缓存一致性操作的支持,包含来自L2的窥探及高速缓存维持操作支持,对L2 SRAM、MSMC SRAM及外部(DDR)地址的窥探及关于窥探及高速缓存维持操作的全标记RAM比较。
在实例中,DMC 361提供48位宽的虚拟存储器寻址以对具有44位物理地址的存储器进行物理寻址。
DMC 361支持扩展式控制寄存器存取。L1D ECR寄存器可通过非管线式接口从CPU存取。这些寄存器不是存储器映射的,而是映射到MOVC CPU指令。
DMC支持L2地址别名(包含VCOP地址别名模式)。所述别名可扩展到多个单独缓冲区,例如VCOP-IBUFAH、IBUFAL、IBUFBH、IBUFBL缓冲区。L2地址别名包含所有缓冲区的超出范围及所有权校验以维持隐私。
UMC 363控制进入及离开L2高速缓存331的数据流。L2高速缓存331是8路组关联的,支持64KB到1MB的高速缓存大小。L2高速缓存331策略包含随机最近最少使用(LRU)及/或随机替换。L2高速缓存331具有128字节高速缓存行大小。L2高速缓存331具有写入分配策略且支持回写及直写模式。L2高速缓存331对高速缓存模式变化执行高速缓存作废,这是可配置的且可被停用。L2高速缓存331被物理编索引、被物理标记(44位物理地址),包含每分组标记RAM 4个,这允许四个独立的分割管线。L2高速缓存331支持来自流式引擎、LID及LIP高速缓存的每64字节流2个,且支持到MSMC 351的统一接口上的配置及MDMA存取。L2高速缓存331高速缓存MMU页表。
L2高速缓存331的实例L2 SRAM组件包含每512位物理存储体4个,其中每一物理存储体具有4个虚拟存储体。每一存储体(例如,物理及/或虚拟存储体)具有独立存取控制。L2SRAM包含关于L2 SRAM存取的安全防火墙。L2 SRAM支持合并式MSMC接口上的DMA存取。
UMC 363向外部(DDR)、MSMC SRAM及L2 SRAM提供预取硬件及按需预取。
L2高速缓存提供对256位粒度的错误检测及校正(例如,ECC)。为标记及数据RAM两者提供全ECC支持,其中标记及数据RAM两者具有1位错误校正及2位错误检测。ECC(参见例如下文中所描述的ECC GEN RMW 471)包含关于向外到MSMC 351的写入及牺牲的ECC校验子,且包含对DMA/DRU写入的读取-修改-写入以保持奇偶校验有效及被更新。ECC经布置以校正及/或产生通过数据路径/管线发送到LIP 311及SE 313的数据的多个奇偶校验位。这包含进行自动擦除以防止1位错误的累积,且刷新奇偶校验。ECC在系统复位时清除且复位奇偶校验。
UMC 363通过在读取时返回存取代码以指示从其读取数据的高速缓存级来提供仿真及调试。总线错误代码经返回以指示仿真读取及写入的通过/失败状态。
UMC 363支持L1D 312、SE 313的2个流、L2 SRAM 331、MSMC 351SRAM与外部存储器(DDR)之间的全一致性。这包含L1D到共享L2的一致性,其可响应于对L2SRAM、MSMC SRAM及外部(DDR)地址的窥探而维持。所述一致性经由MESI方案及策略来维持。UMC 363包含来自SE 313的用户一致性命令且包含对全局一致性操作的支持。
UMC 363支持扩展式控制寄存器存取。L1D ECR寄存器可通过非管线式接口从CPU存取。ECR寄存器的内容可响应于MOVC CPU指令而存取。
UMC 363支持L2地址别名(包含VCOP地址别名模式)。所述别名可扩展到多个单独的缓冲区,例如VCOP-IBUFAH、IBUFAL、IBUFBH、IBUFBL缓冲区。L2地址别名包含所有缓冲区的超出范围及所有权校验以维持隐私。
MSMC 351允许处理器模块110在一致存储器阶层内动态地共享程序及数据两者的内部及外部存储器。MSMC 351包含内部RAM,所述内部RAM通过允许将所述内部RAM的部分配置为共享3级RAM(SL3)来为编程人员提供灵活性。共享3级RAM可高速缓存在本地L2高速缓存中。MSMC可经耦合到片上共享存储器。
提供停顿CPU 310的指令执行管线直到所有处理器触发的存储器事务完成为止的MFENCE(存储器栅栏)指令,所述存储器事务可包含:高速缓存行填充;从L1D写入到L2或从处理器模块写入到MSMC 351及/或其它系统端点;牺牲回写;块或全局一致性操作;高速缓存模式变化;及未完成XMC预取请求。MFENCE指令可用作用于停顿程序直到经分派存储器请求到达它们的端点的简单机制。其还可为经由多个路径(例如其中多处理器算法取决于写入到特定地址的数据的排序)且在手动一致性操作期间到达单个端点的写入提供排序保证。
系统存储器管理单元(MMU)391响应于处理器上下文切换作废μTLB,例如以维持隐私。
图4展示一致及阶层式存储器架构的二级的实例统一存储器控制器。系统400是实例一致共享存储器系统,例如系统300。系统400包含至少一个CPU。例如,第一核心(核心0)可包含CPU 410、L1D 421、SE 422、L1P 423及MSMC 461、动态断电控制器463及2级存储器480。任选第二核心(核心1)可包含与第一核心类似的组件。第一核心(及第二核心412,如果存在的话)经由相应接口耦合到UMC 430,所述UMC经布置以控制L2高速缓存标记及存储器。
UMC 430可包含L2高速缓存控制器、状态存储器440(其包含L2高速缓存标记RAM441、L2 MESI 442、L1D影子标记RAM 443、L1D MESI 444及标记RAM ECC 445)、存储器一致性(外部、内部、全局、用户)450控制器、MSMC接口451、仿真452控制器、断电控制器453、扩展式控制寄存器(ECR)454、防火墙470、ECC产生器读取-修改-写入(ECC GEN RMW)、L2 SRAM/高速缓存仲裁及接口472以及ECC校验473。
一般来说(参考图3及图4),系统400可包含耦合到UMC 430的六个请求器端口(例如,接口):一个PMC 362、一个DMC 361、两个SE端口(包含在一个流式引擎SE 313中)、来自CPU(例如,CPU 410)的内部ECR 454接口及MSMC 461。DMC 361接口具有单独的512位读取及写入路径。这个接口还可用于从L1D高速缓存进行窥探。每一读取事务可为一个或两个数据阶段。PMC 362接口由512位只读取路径(仅L1P取出)组成。每一读取事务可为一个或两个数据阶段。(SE 313的)两个SE接口是512位只读的。每一读取事务可为一个或两个数据阶段。所述读取事务也用作用户块一致性功能的部分。MSMC 461接口由单独的512位读取及写入路径组成。单独的512位读写路径接口也用于窥探命令、对L2 SRAM的读取/写入存取及对L1D SRAM的读取/写入存取。每一读取事务可为一个或两个数据阶段。来自系统400的每一CPU的内部ECR 454接口是64位非管线式接口,且用于对UMC 430的ECR 454寄存器的配置存取。
UMC到DMC接口可包含:512位DMC读取路径;512位DMC写入路径;DMC到UMC信号(例如读取/写入/牺牲地址、逐出到牺牲缓冲区的高速缓存行的地址及安全、从牺牲缓冲区逐出的高速缓存行的地址及安全、用于指示从牺牲缓冲区逐出的干净行的两个标记更新接口、字节启用、读取/写入指示符、MMU页表属性/特权/安全性级指示符、窥探响应、L1D高速缓存模式信号,例如大小、大小变化、全局一致性及全局一致性类型);及UMC到DMC信号(例如窥探信令、对读取及写入的响应以及其它此类握手信号)。
UMC到PMC接口可包含:512位PMC读取路径;PMC到UMC取出地址;及其它此类握手信号。
UMC到SE接口可包含:512位SE读取路径;SE到UMC取出地址;SE到UMC用户块一致性指示符;及其它此类握手信号。
MSMC到UMC接口可经耦合以携载多种类型的事务,例如:主DMA(MDMA,其可包含高速缓存分配、牺牲、长距离写入及不可高速缓存读取,其中此类MDMA事务可源自UMC);外部配置(ECFG,其可包含对可物理地位于CPU核心外的存储器映射寄存器的读取/写入存取,其中此读取/写入存取可源自UMC);DMA事务(其可源自MSMC且是可例如在不同CPU核心之间、在CPU核心与外部DDR之间)或在CPU核心与SOC上的非DDR存储器之间传送数据的事务,其中所述事务可由DMA控制器来创建,且可指向L2 SRAM或L1D SRAM);窥探事务(其可源自MSMC,且可响应于来自另一核心的事务而产生,使得另一核心可窥探来自第一CPU核心的数据);及高速缓存温暖(例如,使得MSMC可发起可被UMC用于将行从3L高速缓存或外部存储器分配到UMC高速缓存的事务)。
UMC到MSMC的接口可包含:512位MSMC读取路径;512位MSMC写入路径;MSMC到UMC信号(例如地址、字节启用、读取/写入指示符、MMU页表属性/特权/安全性级指示符、窥探事务、DMA事务及高速缓存温暖事务);及UMC到MSMC信号(例如窥探响应、地址、字节启用、读取/写入指示符及MMU页表属性/特权/安全性级指示符)及其它此类握手信号。
系统400可包含映射到MOVC CPU指令的扩展式控制寄存器(ECR)。UMC ECR路径允许对UMC的控制寄存器进行64位读取/写入存取。针对配置读取,UMC经布置以对所述寄存器的内容进行采样且在存取期间保存所述内容。UMC ECR接口包含:64位ECR读取路径;64位ECR写入路径;地址;特权/安全性级指示符;索引,其可用于高速缓存标记查看;及其它此类握手信号。
UMC到MMU接口可包含:64位读取路径;地址;及其它此类握手信号。
UMC到L2接口可包含:虚拟存储体;L2存储器的物理存储体,其中每一存储体包含512位宽的可寻址数据单元;512位读取数据路径;512位写入数据路径;地址;字节启用;存储器启用指示符;读取/写入指示符;虚拟存储体选择;及其它此类握手信号。
UMC 430可包含2级存储器480(例如,SRAM)。L2存储器480可包含任何合适数目个存储体,且说明4个存储体481、482、483及484,其中每一此存储体通过相应组的512b读取/写入数据路径及ECC数据路径而耦合。4个存储体可被组织为各自具有4个虚拟存储体,或被组织为各自具有2个虚拟存储体,如下文中参考图5A及图5B分别进行描述
图5A展示每物理存储体具有4个虚拟存储体的图4的系统的实例2级存储器存储体接口。例如,接口500A包含物理存储体510(例如,存储体0)、物理存储体520(例如,存储体1)、物理存储体530(例如,存储体2)及物理存储体540(例如,存储体4)。物理存储体510、520、530及540中的每一者分别包含4个虚拟存储体(虚拟存储体0、虚拟存储体1、虚拟存储体2及虚拟存储体3)。每一物理存储体的虚拟存储体中的每一者包含相应多路复用器/多路分用器,使得给定(例如,经寻址)物理存储体的每一相应虚拟存储体可在虚拟存储体存储器存取中写入或读取。给定物理存储体中的每一虚拟存储体可使用(例如,重叠或分开的)虚拟存储体存储器存取来连续存取。
图5B展示每物理存储体具有2个虚拟存储体的图4的系统的实例2级存储器存储体接口。例如,接口500B包含物理存储体510(例如,存储体0)、物理存储体520(例如,存储体1)、物理存储体530(例如,存储体2)及物理存储体540(例如,存储体4)。物理存储体510、520、530及540中的每一者分别包含2个虚拟存储体(虚拟存储体0及虚拟存储体1)。每一物理存储体的虚拟存储体中的每一者包含相应多路复用器/多路分用器,使得给定(例如,经寻址)物理存储体的每一相应虚拟存储体可在虚拟存储体存储器存取中写入或读取。给定物理存储体中的每一虚拟存储体可为连续(例如,具有重叠或分开的)虚拟存储体存储器存取。
再次参考图4,UMC 430包含四个512位宽的存储器端口,所述存储器端口可被称为UMC存储器存取端口(UMAP)端口。当布置在SRAM中的存储器存储体可在每一UMC周期内响应时,每一L2 SRAM接口(例如,请求器到L2高速缓存的接口)可每UMC周期支持一个新存取。对存储器存储体的存取可通过多个UMC周期管线化,这允许使用更高延时的存储器。所述虚拟存储体中的每一者可包含不同延时,因为每一接口证实每一虚拟端口的可用性,而非整个物理存储体的可用性。
UMC L2 SRAM协议容纳直接连接到UMC 430的存储器。UMC 430在UMAP边界上呈现地址及读取/写入指示且等待一段时间(例如,延时),在其期间“预期”L2 SRAM会作出响应。UMC 430能够独立地控制四个存储体。对这些虚拟存储体的存取是连续发出的。如果附加存储器具有大于1个周期的管线延时,那么对同一虚拟存储体的连续请求导致“存储体冲突”。第二请求被延迟直到第一请求完成。对不同虚拟存储体的连续请求可无延迟地进行(例如,当稍后存取的存储器的延时不大于1个周期的管线延时的两倍时)。
UMC 430可在经编程存取延时之后(例如,在不存在存储器错误的情况下)读取经返回数据。支持两种不同类型的延时-管线延时及存取延时。管线延时是UMC在可再次存取同一虚拟存储体之前必须等待的周期的数目。存取延时是在已呈现读取命令出现之后存储器将数据呈现给UMC所需的周期的数目。在实例系统中,UMC 430支持管线延时及存取延时两者的1到6个延时。
可通过将等待状态插入到存储器存取中来补偿不同类型的SRAM之间的延时的变动,其中响应于被存取的存储器的延时而选择等待状态的数目。1及2周期存取延时可分别被称为“0等待状态”及“1等待状态”。
安全性是通常应用于保护存储器中的数据的术语。安全性的强制执行包含:将权限指派给特定主控,为特定权限指定具有某些允许动作的存储器地址范围,及确定对每一存储器地址的每一取及读写入事务是否包含足够特权来存取特定地址且阻止对具有不足特权的每一事务的特定地址的存取。
权限信息包含在各个轴上解释的权限可能性。例如,可在特权、管理程序及安全(例如,安全性)级的轴上解释权限可能性。沿着特权轴,权限可能性包含用户或监管者的可能性。沿着管理程序(如果适用的话)轴,权限可能性包含根或访客的可能性。沿着安全性级轴,权限可能性包含安全或非安全的可能性。权限可能性跨高速缓存的三个级强制执行。
许多实例包含至少两个安全性状态,每一状态具有用于控制物理及/或逻辑安全性组件的相应相关联存储器属性。安全/非安全状态是伴随(或以其它方式与其关联)由CPU呈现给高速缓存控制器的事务的属性。当CPU处于安全状态(例如,其可通过由CPU产生的事务中的每一者上指示的csecure属性来指示)时,高速缓存级中的每一者的高速缓存控制器允许CPU存取安全及非安全存储器位置。当CPU处于非安全状态(例如,其可通过由CPU产生的事务中的每一者上指示的csecure属性来指示)时,高速缓存级中的每一者的高速缓存控制器允许CPU存取非安全状态存储器位置,但防止CPU存取安全存储器位置。csecure属性可为“安全代码”(例如,其中安全代码包含用于指示在CPU上执行的过程的安全性级的安全状态字段及/或数字字状态的至少一位。安全代码可为如下文中参考图6A到图12所描述的“安全位”。
在实例中,L2防火墙用于提供关于存取L2 SRAM的请求器产生事务及关于存取存储器的更高级的L2产生存储器事务的安全性。L2防火墙与L3防火墙协作,使得可存取权限可能性以控制发生在L2与L3高速缓存之间的事务。安全防火墙组件存在于两个接口处:UMC-MSMC接口(例如,其保护由CPU启动的转到或朝向外部存储器的事务)及UMC-L2RSAM接口(例如,以保护转到或朝向L2 SRAM空间的存取)。
通常,防火墙可以两种模式中的一者进行配置:白名单模式(例如,其中列出用于指示允许哪些主控/权限存取预定地址区的指定)及黑名单模式(例如,其中列出用于指示阻止哪些主控/权限存取预定地址区的指定)。在实例中,预定地址区可在防火墙阻止或允许存取预定地址区中的地址的时间之前预先确定。
为了保护由防火墙(例如)控制的高速缓存的选定级,可将权限信息(例如,用于对特定地址块授予存取权限的保护策略)存储在高速缓存的选定级中,使得可通过针对待保护的相应区的授予或拒绝存取的列表来专门保护存储器的选定区。针对黑名单区域,防火墙经布置以阻止存取任何可高速缓存的存储器位置(例如,具有可存储在高速缓存中的内容的任何存储器位置)。在实例中,对防火墙进行编程以阻止其存取未明确地列入白名单的过程存取可高速缓存的存储器位置可帮助防止只读存储器被高速缓存,且接着由于过程的高速缓存命中而稍后在高速缓存中进行本地更新。
防火墙的白名单或黑名单中列出的地址区域之间存在未指定保护的地址区域。当并非每个可能的存储器位置均被指派选定保护策略时,可能产生此类区域(例如,“灰名单区域”)。由于防火墙配置资源的有限性质(例如有限的存储器或地址处理要求),不为每个可能的存储器位置关联选定保护策略可能是折衷的设计选择。
在影响存储在灰名单区域(例如,与防火墙中列出的黑名单及白名单区域的并集不相交的区域)中的数据的某些高速缓存操作中,可增强对受防火墙保护的高速缓存的存取(例如,超出防火墙的保护,而没有原本将需要更高复杂性的电路及布局空间的额外复杂性)。在实例中,产生存储在特定高速缓存行中的数据的过程的安全性级可经存储在与特定高速缓存行相关联的标记存储器中(包含地址标记、MESI状态及本文中所描述的状态位),保护存储在灰名单区域中的数据,而不会例如增加防火墙的复杂性(例如,以便缩小灰名单区域的范围)。
针对被防火墙允许(例如,未被其阻止)存取选定级高速缓存的选定高速缓存行的请求器的存取请求,响应于存取请求的安全性上下文且响应于与选定高速缓存行相关联的经存储安全代码,可选择性地窥探(例如,从Ll高速缓存读出,但保持在存在于L1高速缓存中的行中),或窥探作废(例如,从L1高速缓存读出,且从L1高速缓存移除),或作废(例如,从高速缓存移除)选定高速缓存行,其中经存储安全代码指示在过程产生存储在选定高速缓存行中的信息时所述过程的安全性上下文。例如,选择性地作废或逐出选定高速缓存行可响应于存取请求的安全性上下文与由安全代码指示的安全性上下文的比较。例如,选择性地作废或逐出选定高速缓存行可响应于存取请求的安全性上下文与由安全代码指示的安全性上下文的比较。例如,选择性地作废或逐出选定高速缓存行可响应于存取请求的安全性上下文及由安全代码指示的安全性上下文不同而确定。
如下文中所描述,响应于存取请求的安全性上下文且响应于指示选定高速缓存行的安全性上下文的经存储安全代码而选择性地作废或被逐出选定高速缓存行可降低防火墙的复杂度(例如,以达到类似的性能水平),可减少原本刷新L1D高速缓存所需的时间长度(例如,其经执行以禁止恶意软件存取高速缓存内容),且可提高包含选定高速缓存行的高速缓存的CPU/存储器系统的总体性能
逐出高速缓存行的精简子集减少原本将在高速缓存逐出过程期间发生的CPU停顿的数目(例如,没有存储器请求安全性上下文与由存储器请求寻址的高速缓存行的安全性上下文的安全性匹配)。通过不逐出具有相同安全性上下文的数据,这减少或消除将经逐出高速缓存信息散布到存储器端点(例如,外部存储器)遇到的延时及在重新加载经逐出行时另外遇到的延时。
在回写高速缓存中,可相对于主存储器修改(脏的,例如由CPU修改)存储在高速缓存行中的存储器位置中的值。当为经修改高速缓存行分配的存储器被确定为被其它存储器需要时,可逐出经修改高速缓存行。当包含经修改值的高速缓存行从高速缓存逐出时,逐步将经逐出高速缓存行(其包含脏存储器)发送到下一更高级会减少原本刷新L1D高速缓存所需的时间长度,这通过减少在高速缓存逐出存储器阶层期间发生的CPU停顿的数目来提高包含L1D高速缓存的存储器系统的总体性能。(经逐出高速缓存行也可存储在高速缓存阶层的同一级处的牺牲高速缓存中。)响应于逐步将脏高速缓存行发送到高速缓存的更高级,最终用存储在经逐出高速缓存行中的经修改信息更新主存储器的对应部分。当用脏高速缓存行更新主存储器的对应部分时,所有存储器均包含经修改数据,使得使存储器系统(例如)再次一致且使得经修改数据可被视为不再是脏的。
UMC 430(如上文中关于图4所描述)经耦合以响应于防火墙470而控制2级存储器480。防火墙470包含专用白名单防火墙,所述白名单防火墙可经编程以允许/禁止存取选定的L2 SRAM地址区。选定的L2 SRAM地址区中的每一者可被指派相应高速缓存策略。经指派相应高速缓存策略可为例如针对每种类型的存取(例如,例如存储器读存取或写入存取)的选定权限级的策略。表3展示实例高速缓存策略指派。
表3
Figure BDA0003371191570000201
Figure BDA0003371191570000211
如关于图2所描述,例如,实例L1D异构高速缓存实施方案可高速缓存L1(数据)高速缓存223及(L1D)牺牲高速缓存223中的每一经高速缓存行的(若干)L2 SRAM地址。L1D主及牺牲高速缓存以及L2影子副本的管理是响应于耦合在L1D与L2控制器之间的专用协议/接口而执行,所述专用协议/接口允许将分配及重新定位信息从L1传递到L2控制器。L2控制器可响应于来自L1的事务及信息且还可创建及强制执行窥探事务以维持来自同一可共享性域内的非高速缓存请求器的I/O(DMA)一致性。窥探事务可引起L2控制器启动对L2高速缓存的影子高速缓存及L1D高速缓存的主/牺牲高速缓存的改变。
1级(例如,LID)控制器222可包含可由编程人员选择以按个别高速缓存行的粒度管理L1D及L2控制器中的高速缓存的占有率的程序启动高速缓存维持操作(CMO)。
在本文中参考图4所描述的实例中,CMO事务可经由VBUSM.C协议接口上的方向事务从流式引擎发出到L2控制器(例如,UMC 430)。VBUSM.C协议接口经布置以将SE 422及UMC430相互耦合。表4展示实例VBUSM.C协议接口。
表4
Figure BDA0003371191570000221
VBUS.C协议包含实例csband信号。所述csband信号是串接若干子信号的封装总线(例如,97位宽),如表4中所展示。csband信号被断言以在高速缓存状态的某些变化期间维持一致性(例如,其中此类变化可响应于例如分配高速缓存行及例如更新L2控制器中的影子信息的高速缓存活动而发生)。
在某些时候,软件启动CMO可能需要针对特定安全性级(例如仅安全与仅非安全)逐出/作废地址(或单个地址)块。本文中描述可用于控制L2高速缓存以通过逐出/作废由CMO请求所需的L1D高速缓存行的减小大小(例如,最小)的子集来维持细粒控制的“安全代码”(例如,“安全位”)。对逐出/作废来自L1D的高速缓存行的此需要可响应于CPU的特权模式的级变化(例如,从安全到非安全或从非安全到安全)而发生。表5展示包含L1D高速缓存中的每一高速缓存行的安全位(位49位置中的csecure)的L1D高速缓存的实例标记行。
表5
Figure BDA0003371191570000232
表6展示包含L1D高速缓存中的每一高速缓存行的安全位(csecure)的L1D高速缓存的实例标记行的字段描述。
表6
Figure BDA0003371191570000231
响应于确定每一高速缓存行的相应安全代码的状态而确定待逐出或作废的高速缓存的选定部分(例如,L1D高速缓存行的子集)。选择待逐出的高速缓存的子集(例如,而非逐出所述高速缓存的所有行),减少原本刷新L1D高速缓存所需的时间长度,这通过减少在高速缓存逐出期间发生的CPU停顿的数目来提高包含L1D的存储器系统的总体性能。表6展示L1D高速缓存的标记行,其包含用于确定安全状态相应行的安全代码位。
calloc信号被断言以启动从L1D发出的用于读取L2高速缓存行的读取命令。calloc的断言(例如calloc==1)指示给定高速缓存行(caddress+csecure)正在由L1D主高速缓存分配。当calloc被断言(例如,calloc==1)时,csband信息用于更新L2控制器中的L1D影子信息。当calloc未被断言时(例如,calloc==0),经寻址高速缓存行的有效位(cmain_valid及cvictim_valid)被设置为0,使得(例如)当calloc信号未被断言时,L1D高速缓存行不会改变。
通常,两个请求器无法在相同时间(例如,在从主高速缓存传送到牺牲高速缓存时,及传出牺牲高速缓存时)读取同一高速缓存行(例如,其中高速缓存行由安全代码的地址及状态唯一地识别)。为了帮助避免这种冲突,可禁止cvictim_address及cvictim_secure(L1D牺牲高速缓存行的安全位)信号的值在calloc信号被断言(calloc==1)且经寻址高速缓存行的有效位被设置的时间期间(例如,当cmain_valid==1及cvictim_valid==1时)精准地匹配cmain_address及cmain_secure信号的相应值。
由L3控制器启动的窥探及DMA事务与由流式引擎发出的CMO事务类似地操作。例如,此类窥探及DMA事务包含用于指示发起请求的过程的安全性级的安全代码。
从MMU或流式引擎发出的一致读取事务也与由流式引擎发出的CMO事务类似地操作。例如,一致读取事务包含用于指示一致读取请求的安全性级的安全代码。
在各种实例中,L2控制器(例如,L2高速缓存控制器431)经布置以从请求器接收指示选定高速缓存行的存取请求。L2控制器经布置以比较接收到的存取请求的安全代码与经存储安全代码,所述经存储安全代码与将目前信息写入到选定高速缓存行中的先前存取请求的安全上下文相关联。响应于比较,可选择性地作废或逐出选定高速缓存行,使得响应于请求器的安全性级(例如,如由安全代码指示)的变化而作废或逐出选定高速缓存行的子集(例如,小于整个集的集)。
L2控制器经耦合到二级数据高速缓存,所述二级数据高速缓存是被存储的L2SRAM物理结构。L2SRAM是单片端点RAM,且经布置以不存储由来自请求器的存取请求指示的地址的任何高速缓存行、存储一个或两个所述高速缓存行。在各种实例中,可存储在L2SRAM中的单个可高速缓存地址的高速缓存行的数目等于可由接收到的存取请求的安全代码指示的安全性级的数目。在实例中,安全代码是位(例如,“安全位”),使得用于存储在给定可高速缓存地址中的数据可经存储在与安全代码的第一可能值相关联的第一高速缓存行中(例如,当安全位为0时),且使得用于存储在给定可高速缓存地址中的数据可经存储在与安全代码的第二可能值相关联的第二高速缓存行中(例如,当安全位为1时)。
一致性是通过在L1D标记、L2标记及L2影子标记中的每一者中包含安全代码(例如,安全位)的字段(例如,位字段)来维持。当存取请求导致信息写入到L1D标记、L2标记及L2影子标记中的任一者的高速缓存行中时,存取请求的(例如,由存取请求所包含的)安全代码(例如,安全位)进一步传播到包含(或将包含)由存取请求指示的高速缓存行的信息的其它高速缓存。
存取请求包含用于指示启动存取代码的请求器的安全性上下文的安全性级的安全代码。如下文中所描述,安全代码(例如,安全位)可被包含在L1D标记、CMO或窥探事务、MMU或SE读取事务及DMA读取/写入事务中。到L1D的L2窥探事务包含发起CMO/窥探/读取/DMA事务请求的安全代码。
当L2控制器处理需要在L1D主或牺牲高速缓存标记的影子副本中查找的事务时,L2控制器评估由正被处理的事务寻址的高速缓存行的安全代码以确定“命中”或“未命中”(例如,通过存取L1D高速缓存行)。例如,确定传入事务的命中:1)响应于检测到影子标记中的经寻址高速缓存行的经存储安全代码与传入事务的安全代码之间的匹配;及2)响应于检测到影子标记中的经高速缓存行的地址与传入事务的高速缓存行地址之间的匹配。在所述实例中,确定传入事务的未命中:1)响应于未检测到影子标记中的经寻址高速缓存行的经存储安全代码与传入事务的安全代码之间的匹配;或2)响应于未检测到影子标记中的经高速缓存行的地址与传入事务的高速缓存行地址之间的匹配。
为了帮助确保L1D准确地执行其自身对由L1D处理的后续窥探事务的命中/未命中检测,可将与L2控制器的最近高速缓存行命中相关联的安全代码传送到L1D控制器。与L2控制器的最近高速缓存行命中相关联的安全代码可响应于最近高速缓存行命中(例如,包含响应于安全代码状态的命中/未命中检测)而经由由L2控制器启动的窥探事务(经由VBUSM.C总线接口协议信令)传送到L1D控制器。
相反,一些可比较的解决方案在高速缓存标记中缺少指示通过其标记高速缓存行的请求器上下文的安全性级的安全代码。留存通过其标记高速缓存行的请求器上下文的安全性级的此缺少可能导致严重的安全性控制故障(例如,因为通过其标记高速缓存行的请求器上下文的安全与非安全上下文安全性级之间的区别可潜在地允许在与通过其标记高速缓存行的请求器上下文的安全性级不同的安全性级下处理存取请求。
例如,高速缓存标记中的安全与非安全上下文之间的区别实现存储在第一上下文下的高速缓存行的细粒高速缓存逐出/作废,而不会影响存储在与第一上下文不同的上下文下的高速缓存行的高速缓存性能。在其中非安全高速缓存行经由CMO操作而作废的实例中,安全行可保持在高速缓存中,这导致存储在安全软件上下文中的高速缓存行的改进高速缓存性能。例如,这个改进可在其中存储在非安全软件上下文中的高速缓存行及存储在安全软件上下文中的高速缓存行两者共享同一高速缓存中的相同标记地址的情况下发生。
L2控制器准确地对L1D执行一致窥探操作的效率可通过对其中经寻址高速缓存行及存取请求的经高速缓存地址及安全性级相同的案例的子集的L1D执行一致窥探操作而得到改进。可响应于评估由事务的安全代码(例如,安全位的状态)指示的软件上下文的安全性级而确定待启动对L1D的哪些一致窥探操作的选择,其中安全位的状态经存储在L1D(主或牺牲)高速缓存中的高速缓存标记中且还经存储/维持在L2高速缓存中的L1D/L2高速缓存标记的影子副本中。
图6A展示实例L1D(1级数据)控制器物理结构。例如,1级数据控制器600A包含主高速缓存标记601及牺牲高速缓存标记602。主高速缓存标记601经布置以跟踪(例如,针对相应主高速缓存行)地址标记、MESI及上次通过其修改相应高速缓存行数据的过程的安全性级(例如,由安全代码指示)。牺牲高速缓存标记602经布置以跟踪(例如,针对相应牺牲高速缓存行)地址标记、MESI及上次通过其修改相应高速缓存行数据的过程的安全性级(例如,由安全代码指示)。
L1D主高速缓存601是服务于读取及写入命中及窥探的直接映射高速缓存。L1D主高速缓存601维持可a)响应于读取、写入及窥探存取且b)响应于安全代码(例如,安全位)而修改的当前MESI状态。L1D主高速缓存601是读取分配高速缓存。未命中高速缓存的来自CPU的写入存取经发送(例如,转发)到L2,而不需要分配L1D主高速缓存601中的高速缓存行。由于L1D高速缓存的直接映射设计,当新分配进行时,所述集中的当前行经移动(例如,逐出)到牺牲高速缓存602,而不管所述集中的当前行是干净的还是脏的。
L1D牺牲高速缓存602是保存由于替换(例如,响应于来自CPU的写入)而从主高速缓存601移除(例如,逐出)的行的全关联结构。L1D牺牲高速缓存602保存干净行及脏行两者。L1D牺牲高速缓存服务于读取及写入命中及窥探(例如,从CPU接收),同时响应于命中L1D牺牲高速缓存602的读取、写入及窥探存取而维持正确MESI(例如,当经高速缓存行包含与读取、写入或窥探存取事务的地址及安全代码匹配的地址及安全代码时)。当处于经修改状态(例如,脏)的行从牺牲高速缓存移除(例如,逐出)时,其作为牺牲发送到L2主高速缓存(下文中参考图6B所描述)。
图6B展示实例2级(L2)控制器物理结构。例如,1级数据控制器600B包含主高速缓存标记610及牺牲高速缓存标记620。主高速缓存标记610经布置以跟踪(例如,针对相应主高速缓存行)地址标记、MESI及上次通过其修改相应高速缓存行数据的过程的安全性级(例如,由安全代码指示)。牺牲高速缓存标记620经布置以跟踪(例如,针对相应牺牲高速缓存行)地址标记、MESI及上次通过其修改相应高速缓存行数据的过程的安全性级(例如,由安全代码指示)。牺牲高速缓存620包含浮动条目,包含由同一“路”寻址的条目的高速缓存标记信息。
L2高速缓存是经布置以服务于来自各种类型的多个请求器的请求的统一高速缓存。请求器类型可包含例如L1D数据存储器控制器(L1D DMC)、L1P程序存储器控制器(PMC)、流式引擎(SE)、MMU(存储器管理单元)及L3 MSMC(多核共享存储器控制器)的请求器的类型。
L2高速缓存不包含L1D及L1P,使得不需要L2包含存储在L1D及L1P高速缓存中的所有高速缓存行。在这个方案中,一些行可经高速缓存在阶层的两个级中。L2高速缓存也是非排他性的,使得不会明确地防止高速缓存行在相同时间高速缓存在L1及L2高速缓存两者中。在包含高速缓存行的分配及随机替换的实例操作中,高速缓存行可存在于L1D及L2高速缓存中的一个、两者中或不存在于L1D及L2高速缓存中的任一者中。以类似方式,类似高速缓存行可在相同时间存储在L1P及L2高速缓存中。
图7A展示在实例高速缓存操作之前的实例级数据(L1D)高速缓存标记值。例如,1级数据控制器700A包含主高速缓存标记710A、牺牲高速缓存标记720A及暂时性牺牲保存缓冲区730A。主高速缓存标记710A经布置以跟踪(例如,针对相应主高速缓存行)地址标记、MESI及与发起高速缓存行的过程的安全性上下文相关联的安全性级“S”。主高速缓存标记710A(及具有用于存储安全性级S的安全代码存储器的其它高速缓存标记)中的“S”的列是实例一级高速缓存安全代码列表。牺牲高速缓存标记720A经布置以跟踪地址标记、MESI及通过其相应条目包含条目被逐出的高速缓存标记信息的过程的安全性级(例如,使得牺牲高速缓存可由牺牲高速缓存行来加载而(例如)无须等待经逐出高速缓存行发送到更高高速缓存级)。
1级数据控制器700A中的L1D数据结构的实例状态被展示为在L1D控制器对行C的实例分配之前的状态。在所述实例中,选定行A在主高速缓存标记710A中经存储为具有高速缓存行A的发起过程的经修改(“M”MESI)及安全代码S(例如,1或0的安全位)。在相同时间,牺牲高速缓存标记720A的选定路将高速缓存行B包含为具有高速缓存行B的发起过程的S的修改状态及安全代码。在相同时间,L1D暂时性牺牲保存缓冲区是空的。
如下文中所描述,接收L1D高速缓存行分配存取命令,使得响应于接收到的分配存取命令,将主高速缓存标记710A的经修改高速缓存行传送到牺牲高速缓存标记720A,使得从牺牲高速缓存标记720A逐出的高速缓存行(例如,其经逐出以代表从主高速缓存标记710A传送的经修改高速缓存行腾出空间)从牺牲高速缓存标记720A传送到L1D暂时性牺牲保存缓冲区(例如,以最终发送到L2级高速缓存)。
图7B展示在实例高速缓存操作之后的实例级数据(L1D)高速缓存标记值。例如,1级数据控制器700B包含主高速缓存标记710B、牺牲高速缓存标记720B及暂时性牺牲保存缓冲区730B。在所述实例中,主高速缓存标记710B、牺牲高速缓存标记720B及暂时性牺牲保存缓冲区730B展示在L1D控制器分配行C之后的相应L1D数据结构的值。
在实例高速缓存操作中,L1D高速缓存在主高速缓存标记810B中的地址C处分配新行(例如,高速缓存行C),这启动高速缓存行A(例如,从主高速缓存标记710A)到牺牲高速缓存标记720B的相应路的传送。响应于高速缓存行A到牺牲高速缓存标记720B的相应路的传送,高速缓存行B从牺牲高速缓存的相应路传送到L1D暂时性牺牲保存缓冲区730B。高速缓存行B经存储在L1D暂时性牺牲保存缓冲区730B中,等待行B到L2级高速缓存的后续传送。
图8A展示在实例高速缓存操作之前的实例L2影子结构。例如,2级数据控制器800A包含L2影子主高速缓存标记810A及L2影子标记牺牲高速缓存820A。L2数据控制器800A维持保存在L1D主高速缓存中(例如,在主高速缓存标记710A中,且接着在710B中修改)中的高速缓存行中的每一者的地址标记、MESI状态信息及安全性信息的影子副本。主高速缓存条目710A的L2影子主高速缓存标记810A允许L2控制器正确地跟踪高速缓存在L1D中的主高速缓存行中的每一者,使得L2控制器可正确地(且快速地,例如,而无须轮询所有L1D主高速缓存条目)确定何时发送窥探事务以执行a)读取或b)作废L1D中的高速缓存行中的仅一者。
L2数据控制器800A还维持保存在L1D牺牲高速缓存中(例如,在牺牲高速缓存标记820中)的高速缓存行中的每一者的地址标记及MESI状态信息的影子副本。牺牲高速缓存条目的L2影子标记牺牲高速缓存820A(例如,在牺牲高速缓存标记720A中,且接着在720B中修改)允许L2控制器正确地跟踪高速缓存在L1D中的主高速缓存行,使得L2控制器可准确地确定何时将窥探事务发送到L1D控制器。
维持(例如,L1主高速缓存标记710A及L1牺牲高速缓存标记720A的)L1D高速缓存标记作为L2影子标记减少原本将更长(例如,在没有影子标记的情况下)的级间高速缓存存取延时。如果所述影子标记未经维持在L2中,那么L2控制器将被迫为可能保存在L1D主或牺牲高速缓存中的每一请求窥探L1D,这将由于所得窥探业务带宽的大提高而显著地使接口性能降级。
2级数据控制器800A中的L1D数据结构的实例状态被展示为在实例高速缓存操作(例如,L1D控制器对行C的分配)之前的状态。在所述实例中,选定行A(先前从主高速缓存标记710A复制)在L2影子主高速缓存标记810A中经存储为具有高速缓存行A的发起过程的S的修改(MESI中的“M”)及安全代码(例如,1或0的安全位)。在相同时间,L2影子标记牺牲高速缓存820A的选定路(如先前从牺牲高速缓存标记720B复制)将高速缓存行B包含为具有高速缓存行B的发起过程的S的修改状态及安全代码。在相同时间,L2影子标记牺牲高速缓存820A的浮动条目是空的,这反映L1D暂时性牺牲保持缓冲区(L2影子标记牺牲高速缓存820A)的状态是空的。主高速缓存标记810A中的“S”的列及包含用于存储安全性级“S”的安全代码存储器的其它L2高速缓存标记中的“S”的其它列各自是相应二级高速缓存安全代码列表的实例。
如下文中所描述,接收L1D高速缓存行分配存取命令,使得响应于接收到的分配存取命令,将主高速缓存标记710A的经修改高速缓存行传送到牺牲高速缓存标记720A,使得从牺牲高速缓存标记720A逐出的高速缓存行从牺牲高速缓存标记720A传送到L1D暂时性牺牲保存缓冲区。
图8B展示在行的L1D分配之后的实例L2影子结构,其中经修改行从主高速缓存移动到牺牲高速缓存,且从牺牲高速缓存移动到L2。例如,2级数据控制器800B包含主高速缓存标记810B及L2影子标记牺牲高速缓存820B。在所述实例中,主高速缓存标记810B及L2影子标记牺牲高速缓存820B展示在L1D控制器分配C行之后传送到2级数据控制器800A之后的相应L1D数据结构的值。
在实例高速缓存操作中,L1D高速缓存在主高速缓存标记810B中的地址C处分配新行(例如,高速缓存行C),这启动高速缓存行A(例如,从主高速缓存标记710A)到牺牲高速缓存标记720B的相应路的传送。响应于在主高速缓存标记710B中的地址C处分配新行(例如,高速缓存行C),将主高速缓存标记710B中的地址C处的行(例如,高速缓存行C)分配(及/或复制到)主高速缓存标记810B中的地址C处的相应行(例如,高速缓存行C)。
响应于高速缓存行A到牺牲高速缓存标记720B的相应路的传送,将高速缓存行B从牺牲高速缓存的相应路传送到L1D暂时性牺牲保存缓冲区730B。高速缓存行B经存储在L1D暂时性牺牲保存缓冲区730B中,等待行B到L2级高速缓存的后续传送(例如,当授予对通过其更新存储器端点(例如,外部存储器)的牺牲写入操作的存取时。
图9A是多级高速缓存系统中的一致读取操作的实例过程的流程图。一致性读取操作是高速缓存一致性操作的实例。过程900A是作为MMU读取操作、SE读取操作或DMA读取操作启动的实例过程,例如一致读取操作。过程900A在操作910A处启动。
在操作910A处,由MMU、SE或DMA控制器产生一致读取操作且将其发送到L2控制器(例如,UMC 430)。
在操作920A处,由L2控制器(例如,UMC 430)接收由MMU、SE或DMA控制器产生的一致读取操作。L2控制器经布置以确定接收到的一致读取操作是否引起L2影子标记命中及安全命中(例如,安全性代码匹配)两者。L2影子标记命中响应于接收到的一致读取操作的一致读取地址与在L2影子主高速缓存或L2影子牺牲高速缓存的L2影子标记中的任一者中标记的地址匹配而发生。安全命中响应于确定接收到的一致读取操作的安全代码与存储在由接收到的一致读取操作命中的高速缓存行中的安全代码之间的匹配而发生。响应于接收到的一致读取操作引起L2影子标记命中及安全命中两者的肯定比较的确定,过程900A在操作930A处继续。响应于接收到的一致读取操作不会引起L2影子标记命中及安全命中两者的确定,过程900A在操作922A处继续。
在操作922A处,L2控制器响应于(例如,为了实现)接收到的一致读取操作而本地产生一致读取命令且将本地产生的一致读取命令发送到存储器端点(例如,使得存储器端点可将经请求一致读取数据返回到产生且发送由L2控制器接收的一致读取操作的请求器)。所述端点可为L2高速缓存、外部存储器或任何其它端点。
在操作930A处,L2控制器响应于接收到的一致读取操作引起L2影子标记命中及安全命中两者的确定而本地产生窥探读取请求。L2控制器将窥探读取请求发送到更低级高速缓存(例如,L1D),使得(例如)L2高速缓存可与更低级高速缓存保持一致。
在操作940A处,L2控制器确定窥探响应(例如,其由更低级高速缓存控制器响应于由L2控制器发送的窥探读取请求而产生且发送)是否指示被窥探的高速缓存行含有有效数据。响应于窥探响应包含有效数据的确定,过程900A在操作950A处继续。响应于窥探响应不包含有效数据的确定,过程900A在操作922A处继续。
在操作950A处,L2控制器将由窥探响应所包含的数据返回(例如,转发)到读取主控(例如,产生且发送由L2控制器接收的一致读取操作的请求器)。
图9B是多级高速缓存系统中的窥探读取操作的实例过程的流程图。窥探读取操作是高速缓存一致性操作的实例。过程900B是作为MMU读取操作、SE读取操作或DMA读取操作启动的实例过程,例如窥探操作。过程900B在操作910B处启动。
在操作910B处,由3级高速缓存及/或下一更高级高速缓存产生窥探操作)。
在操作920B处,由L2控制器(例如,UMC 430)接收由3级高速缓存及/或下一更高级高速缓存)产生的窥探操作。L2控制器经布置以确定接收到的窥探操作是否引起L2影子标记命中(例如,地址匹配)及安全命中(例如,安全性代码匹配)两者。L2影子标记命中响应于接收到的窥探读取操作的窥探读取地址与在L2影子主高速缓存或L2影子牺牲高速缓存的L2影子标记中的任一者中标记的地址匹配而发生。安全命中响应于确定接收到的窥探读取操作的安全代码与存储在由接收到的窥探读取操作命中的高速缓存行中的安全代码之间的匹配而发生。响应于接收到的窥探读取操作引起L2影子标记命中及安全命中两者的肯定比较的确定,过程900B在操作930B处继续。响应于接收到的窥探读取操作不会引起L2影子标记命中及安全命中两者的确定,过程900B在操作922B处继续。
在操作922B处,L2控制器本地产生读取命令以响应于(例如,为了实现)来自3级高速缓存(或下一更高级高速缓存)的接收到的窥探读取操作而从存储器端点(例如,最接近的有效高速缓存条目或外部存储器)读取数据。例如,当命中/未命中校验指示被窥探的高速缓存行存在于L2高速缓存中时,最接近的有效高速缓存条目可为L2高速缓存。如果所述行不存在于L2高速缓存中,那么可将读取命令转发到下一更低级高速缓存或朝向另一端点转发。
在操作930B处,L2控制器响应于接收到的窥探读取操作引起L2影子标记命中及安全命中两者的确定而本地产生窥探读取请求。L2控制器将窥探读取请求发送到更低级高速缓存(例如,L1D),使得(例如)L2高速缓存可与更低级高速缓存保持一致。
在操作940B处,L2控制器确定窥探响应(例如,其由更低级高速缓存控制器响应于由L2控制器发送的窥探读取请求而产生且发送)是否指示被窥探的高速缓存行含有有效数据。响应于窥探响应包含有效数据的确定,过程900B在操作950B处继续。响应于窥探响应不包含有效数据的确定,过程900B在操作922B处继续。
在操作950B处,L2控制器将由窥探响应所包含的数据返回(例如,转发)到读取主控(例如,产生且发送由L2控制器接收的窥探读取操作的请求器)。
图9C是多级高速缓存系统中的CMO(高速缓存维持操作)读取操作的实例过程的流程图。CMO读取操作是高速缓存一致性操作的实例。过程900C是作为CPU产生的CMO操作启动的实例过程,例如CMO操作。过程900C在操作910C处启动。
在操作910C处,由CPU产生CMO操作且经由SE将其发送到L2控制器(例如,UMC430)。CMO的产生在第10,599,433号美国专利中进行描述,所述专利的全部内容且出于所有目的而以引用的方式并入本文中。在实例中,CMO操作继承在CPU上运行的过程的安全级(例如,其中安全代码是响应于经继承安全级而确定)。CPU的安全过程产生CMO以包含经设置以指示通过其产生CMO的安全过程的目标地址及安全代码。CMO操作可用于从高速缓存逐出或移除不常用的行,其中经选择以被逐出或移除的行是与产生CMO的过程的安全代码匹配的行。
在操作920C处,由L2控制器(例如,UMC 430)接收由CPU产生的窥探操作。L2控制器经布置以确定接收到的CMO操作是否引起L2影子标记命中及安全命中(例如,安全性代码匹配)两者。L2影子标记命中响应于接收到的CMO操作的CMO地址与在L2影子主高速缓存或L2影子牺牲高速缓存的L2影子标记中的任一者中标记的地址匹配而发生。安全命中是响应于确定接收到的CMO操作的安全代码与存储在由接收到的CMO操作命中的高速缓存行中的安全代码之间的匹配而发生。响应于接收到的CMO操作引起L2影子标记命中及安全命中两者的肯定比较的确定,过程900C在操作930C处继续。响应于确定接收到的CMO操作不会引起L2影子标记命中及安全命中两者,过程900C在操作922C处继续。
在操作922C处,L2控制器响应于接收到的CMO读取操作而本地读取牺牲高速缓存行。来自牺牲的数据被封装为窥探数据以作为窥探请求转发到以发出到下一级高速缓存或端点(例如,在操作950C中),且将本地产生的读取命令发送到存储器端点。
在操作930C处,L2控制器响应于接收到的CMO读取操作引起L2影子标记命中及安全命中两者的确定而本地产生窥探读取请求。L2控制器将窥探读取请求发送到更低级高速缓存(例如,L1D),使得(例如)L2高速缓存可与更低级高速缓存保持一致。
在操作940C处,L2控制器确定窥探响应(例如,其由更低级高速缓存控制器响应于由L2控制器发送的窥探读取请求而产生且发送)是否指示被窥探的高速缓存行含有有效数据。响应于窥探响应包含有效数据的确定,过程900C在操作950C处继续。响应于窥探响应不包含有效数据的确定,过程900C在操作922C处继续。
在操作950C处,L2控制器将由窥探响应(例如,来自操作922C或操作940C)所包含的数据返回(例如,转发)到读取主控(例如,产生且发送由L2控制器接收的CMO操作的请求器)。
图10是多级高速缓存系统中的DMA写入操作的实例过程的流程图。过程1000是由DMA控制器启动的实例过程,例如一致性DMA写入操作。过程1000在操作1010处启动。
在操作1010处,由DMA控制器产生DMA写入操作且将其发送到L2控制器(例如,UMC430)。在实例中,DMA写入操作经由MSMC 461发送到L2控制器。
在操作1020处,由L2控制器(例如,UMC 430)接收经产生DMA写入操作。L2控制器经布置以确定接收到的DMA写入操作是否引起L2影子标记命中及安全命中(例如,安全代码匹配)。L2影子标记命中响应于接收到的DMA写入操作的DMA写入地址与在L2影子主高速缓存或L2影子牺牲高速缓存的L2影子标记中的任一者中标记的地址匹配而发生。安全命中响应于确定接收到的DMA写入操作的安全代码与存储在由接收到的CMO操作命中的高速缓存行中的安全代码之间的匹配而发生。响应于接收到的DMA写入操作引起L2影子标记命中及安全命中两者的肯定比较的确定,过程1000在操作1030处继续。响应于接收到的DMA写入操作不会引起L2影子标记命中及安全命中两者的确定,过程1000在操作1022处继续。
在操作1022处,L2控制器响应于(例如,为了实现)接收到的DMA写入操作而本地产生写入命令且将本地产生的DMA写入命令发送到存储器端点。所述端点可为L2SRAM存储器、L3高速缓存、外部存储器或任何其它端点。
在操作1030处,L2控制器响应于接收到的DMA写入操作引起L2影子标记命中的确定而本地产生窥探读取请求。L2控制器将窥探读取请求发送到更低级高速缓存(例如,L1D),使得更低级高速缓存的窥探请求高速缓存行(例如,L1D被作废)。
在操作1040处,L2控制器确定窥探响应(例如,其由更低级高速缓存控制器响应于L2控制器发送的窥探读取请求而产生且发送)是否指示被窥探的高速缓存行含有脏(例如,经修改)数据。响应于窥探响应包含脏数据的确定,过程1000在操作1050处继续。响应于窥探响应不包含脏数据的确定,过程1000在操作1022处继续。
在操作1050处,L2控制器将DMA写入数据合并在由窥探响应所包含的数据上且将经合并响应写入到所述端点。
图11是多级高速缓存系统中的读取分配操作的实例过程的流程图。过程1100是可响应于从更低级控制器(例如,L1D)接收的读取分配操作而启动的实例过程,例如读取分配操作。过程1100在操作1110处启动。
在操作1110处,由更低级数据存储器控制器(例如,DMC 361)将读取分配操作请求发送到L2控制器(例如,UMC 430)。在实例中,所述请求可通过将信号calloc设置为高来发信号。
在操作1120处,将接收到的分配读取信号(caddress)的地址及接收到的分配读取信号的安全代码写入(及标记)到L2影子主高速缓存(例如,使得L2影子主高速缓存经布置以阴影化L1D主高速缓存)。caddress及csecure位唯一地指示接收到的分配读取信号所针对的高速缓存行。
在操作1130处,L2控制器确定L2影子主高速缓存中的经指示高速缓存行的有效位(cmain_valid)是否被设置。响应于有效位被设置的确定,过程1100在操作1140处继续。响应于有效位未被设置的确定,过程1100在操作1150处继续。
在操作1140处,L2控制器将cmain_address、cmain_secure及cmain_MESI写入到所述影子牺牲高速缓存(例如,L2影子牺牲高速缓存标记620)。
在操作1150处,L2控制器确定L2影子牺牲高速缓存中的经指示高速缓存行的有效位(cvictim_valid)是否被设置。响应于有效位被设置的确定,过程1100在操作1160处继续。响应于有效位未被设置的确定,过程1100在操作1190处继续(例如,其中过程1100终止)。
在操作1160处,L2控制器评估牺牲高速缓存的经指示高速缓存行的MESI字段(cvictim_mesi)以确定经指示高速缓存行的MESI字段是无效的、共享的或排他的还是修改的。响应于经指示高速缓存行是无效的确定,过程1100在操作1190处继续。响应于经指示高速缓存行是共享或排他的确定,过程1100在操作1170处继续。响应于确定如果经指示高速缓存行是经修改的确定,过程1100在操作1170处继续。
在操作1170处(针对经确定共享或排他状态),L2控制器从已存储与接收到的分配读取信号的caddress及csecure值匹配的caddress及csecure值的影子牺牲高速缓存移除高速缓存行条目。在移除匹配的高速缓存行条目后,过程1100在操作1190处继续(例如,其中可终止过程1100)。
在操作1180处(针对经确定修改状态),L2控制器将高速缓存行条目留存在已存储与接收到的分配读取信号的caddress及csecure值匹配的caddress及csecure值的影子牺牲高速缓存中。匹配的高速缓存行条目至少经留存在影子牺牲高速缓存中直到从更低级(例如,L1D)高速缓存接收后续牺牲高速缓存事务。过程1100在操作1190处继续(例如,其中可终止过程1100)。
在操作1190处,过程1100被视为“完成”,且L2控制器可继续处理后续高速缓存请求。
图12是多级高速缓存系统中的牺牲写入操作的实例过程的流程图。过程1200是可响应于从更低级控制器(例如,L1D)接收的牺牲写入操作而启动的实例过程,例如牺牲写入操作。过程1200在操作1210处启动。
在操作1210处,由更低级数据存储器控制器(例如,DMC 361)将牺牲写入操作请求发送到L2控制器(例如,UMC 430)。
在操作1220处,L2控制器确定影子牺牲高速缓存中的高速缓存行条目的经存储caddress及csecure值是否与接收到的分配读取信号的caddress及csecure值匹配。响应于匹配的确定(是),过程1100在操作1230处继续。响应于不匹配的确定(否),过程1100在操作1140处继续。
在操作1230处,L2控制器根据需要更新影子牺牲高速缓存以作废由接收到的牺牲写入操作指示的高速缓存行以维持一致性及/或安全性。例如,当L1控制器将牺牲发送到L2时,L1控制器正在从其高速缓存(例如,L1主或牺牲高速缓存)移除经修改行。随着经修改行从L1高速缓存移除,L1控制器更新L1标记以指示经修改行已作为条目从L1 TAG RAM移除。因为L2控制器内的影子TAGRAM(用于阴影化L1主及牺牲高速缓存两者)跟踪L1 TAG RAM,所以所述条目也从L2影子TAGRAM(主及牺牲)移除以镜像从L1 TAG RAM的删除。L2控制器对未来事务(例如MMU读取)的延时减少,这是因为L2控制器可基于本地保存L2控制器中的影子标记来产生对这个行的窥探(或不产生窥探)。
在操作1240处,用牺牲数据(例如,来自与接收到的牺牲写入操作的caddress及csecure值匹配的牺牲高速缓存行的牺牲数据)更新端点存储器.
在所描述实施例中修改是可能的,且在权利要求书的范围内,其它实施例也是可能的。

Claims (20)

1.一种系统,其包括:
中央处理单元(CPU),其经布置以执行程序指令以在至少第一或第二安全上下文中操纵数据,其中所述第一及第二安全上下文包含其间的不同安全性组件;
一级高速缓存,其经耦合到所述CPU以暂时将数据存储在高速缓存行中以供所述CPU操纵,其中所述一级高速缓存包含用于存储安全代码的一级高速缓存安全代码列表的第一安全代码存储器,其中每一安全代码指示通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文中的一者,且其中所述一级高速缓存包含可由所述CPU寻址的一级本地存储器;及
二级高速缓存,其经耦合到所述一级高速缓存以暂时将数据存储在高速缓存行中以供所述CPU操纵,其中所述二级高速缓存包含用于存储安全代码的二级高速缓存安全代码列表的第二安全代码存储器,其中每一安全代码指示通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文中的一者,且其中所述二级高速缓存包含可由所述CPU及所述一级高速缓存寻址的二级本地存储器。
2.根据权利要求1所述的系统,其中所述二级高速缓存包含安全代码的所述一级高速缓存安全代码列表的影子副本。
3.根据权利要求2所述的系统,其中所述一级高速缓存包含经布置以将存取请求发送到所述二级高速缓存的一级高速缓存控制器,其中所述存取请求包含存储在所述一级高速缓存中的数据的高速缓存行的地址及指示通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码。
4.根据权利要求3所述的系统,其中所述二级高速缓存包含经布置以接收由所述一级高速缓存发送的所述存取请求的二级高速缓存控制器,且其中所述二级高速缓存控制器响应于比较所述存取请求的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述存取请求的所述地址指示的数据的高速缓存行的安全代码而产生比较,且响应于所述比较,执行高速缓存一致性操作。
5.根据权利要求4所述的系统,其包括请求器,所述请求器经耦合到所述二级高速缓存且经布置以将一致性读取事务发送到所述二级高速缓存控制器,其中所述一致性读取事务包含可由所述CPU寻址的数据的高速缓存行的地址及指示通过其接收由所述一致性读取事务寻址的所述高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码,其中所述二级高速缓存控制器比较所述一致性读取事务的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述一致性读取事务的所述地址指示的数据的高速缓存行的安全代码,且响应于所述比较是肯定的,所述二级高速缓存控制器产生窥探读取事务且将所述窥探读取事务发送到所述一级高速缓存。
6.根据权利要求5所述的系统,其中所述请求器是存储器管理单元(MMU)、流式引擎(SE)及直接存储器存取(DMA)控制器中的一者。
7.根据权利要求4所述的系统,其包括三级高速缓存,所述三级高速缓存经耦合到所述二级高速缓存且经布置以将窥探事务发送到所述二级高速缓存控制器,其中所述窥探事务包含可由所述CPU寻址的数据的高速缓存行的地址及指示通过其接收由所述窥探事务寻址的所述高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码,其中所述二级高速缓存控制器比较所述窥探事务的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述窥探事务的所述地址指示的数据的高速缓存行的安全代码,且响应于所述比较是肯定的,所述二级高速缓存控制器产生窥探读取事务且将所述窥探读取事务发送到所述一级高速缓存。
8.根据权利要求4所述的系统,其中所述CPU经布置以将高速缓存维持操作(CMO)事务发送到所述二级高速缓存控制器,其中所述CMO事务包含可由所述CPU寻址的数据的高速缓存行的地址及指示通过其接收由所述CMO事务寻址的所述高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码,其中所述二级高速缓存控制器比较所述CMO事务的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述CMO事务的所述地址指示的数据的高速缓存行的安全代码,且响应于所述比较是肯定的,所述二级高速缓存控制器产生窥探读取事务且将所述窥探读取事务发送到所述一级高速缓存。
9.根据权利要求4所述的系统,其包括数据存储器控制器(DMC),所述DMC经耦合到所述二级高速缓存且经布置以将牺牲写入事务发送到所述二级高速缓存控制器,其中所述牺牲写入事务包含牺牲数据、可由所述CPU寻址的数据的高速缓存行的地址及指示通过其接收由所述牺牲写入事务寻址的所述高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码,其中所述二级高速缓存控制器比较所述牺牲写入事务的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述牺牲写入事务的所述地址指示的数据的高速缓存行的安全代码,且响应于所述比较是肯定的,所述二级高速缓存控制器用所述牺牲数据更新影子牺牲高速缓存。
10.根据权利要求4所述的系统,其包括DMA控制器,所述DMA控制器经耦合到所述二级高速缓存且经布置以将一致性DMA写入事务发送到所述二级高速缓存控制器,其中所述一致性DMA写入事务包含可由所述CPU寻址的数据的高速缓存行的地址及指示通过其接收由所述一致性DMA写入事务寻址的所述高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码,其中所述二级高速缓存控制器比较所述一致性DMA写入事务的所述地址及所述安全代码与由存储在所述二级高速缓存中的用于由所述一致性DMA写入事务的所述地址指示的数据的高速缓存行的安全代码,且响应于所述比较是肯定的,所述二级高速缓存控制器产生窥探读取事务且将所述窥探读取事务发送到所述一级高速缓存。
11.根据权利要求1所述的系统,其中所述安全代码是用于指示所述第一及第二安全上下文中的一者的位。
12.一种方法,其包括:
执行程序指令以由CPU在至少第一或第二安全上下文中操纵数据,其中所述第一及第二安全上下文包含其间的不同安全性组件;
暂时将数据存储在一级高速缓存的高速缓存行中以供所述CPU操纵,其中所述一级高速缓存包含可由所述CPU寻址的第一安全代码存储器及一级本地存储器;将安全代码存储在一级高速缓存安全代码列表中,其中每一安全代码指示由所述一级高速缓存通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文中的一者;
暂时将数据存储在二级高速缓存的高速缓存行中以供所述CPU操纵,其中所述二级高速缓存包含可由所述CPU寻址的第二安全代码存储器及二级本地存储器;及
将安全代码存储在二级高速缓存安全代码列表中,其中每一安全代码指示由所述二级高速缓存通过其接收相应高速缓存行的数据的所述至少第一或第二安全上下文中的一者。
13.根据权利要求12所述的方法,其进一步包括窥探所述一级高速缓存以将所述一级高速缓存安全代码列表的影子副本维持在所述二级高速缓存中。
14.根据权利要求13所述的方法,其进一步包括将存取请求从所述一级高速缓存发送到所述二级高速缓存,其中所述存取请求包含存储在所述一级高速缓存中的数据的高速缓存行的地址及指示通过其从所述CPU接收相应高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者。
15.根据权利要求14所述的方法,其进一步包括:
在所述二级高速缓存处接收由所述一级高速缓存发送的存取请求;
响应于比较所述存取请求的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述存取请求的所述地址指示的数据的高速缓存行的安全代码而产生比较;及
响应所述比较,执行高速缓存一致性操作。
16.根据权利要求15所述的方法,其进一步包括:
将一致性读取事务发送到所述二级高速缓存,其中所述一致性读取事务包含可由所述CPU寻址的数据的高速缓存行的地址及指示通过其接收由所述一致性读取事务寻址的所述高速缓存行的数据的所述至少第一或第二安全上下文中的所述一者的所述安全代码;
比较所述一致性读取事务的所述地址及所述安全代码与存储在所述二级高速缓存中的用于由所述一致性读取事务的所述地址指示的数据的高速缓存行的安全代码;及
响应于所述比较是肯定的,将窥探读取事务从所述二级高速缓存发送到所述一级高速缓存。
17.一种系统,其包括:
高速缓存,其包含:
本地存储器,其包含一组高速缓存行以存储一组数据;及
安全代码存储器,其用于存储安全代码的安全代码列表,其中所述安全代码中的每一者指示存储在所述一组高速缓存行中的相应高速缓存行中的所述一组数据的子集的相应安全上下文。
18.根据权利要求17所述的设备,其包括CPU,所述CPU经布置以在所述相应安全上下文中的一者中操作以操纵可由所述CPU寻址的数据。
19.根据权利要求18所述的设备,其中所述高速缓存是一级高速缓存。
20.根据权利要求18所述的设备,其中所述高速缓存是二级高速缓存。
CN202080038470.0A 2019-05-24 2020-05-26 多级高速缓存安全性 Pending CN113892090A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962852468P 2019-05-24 2019-05-24
US62/852,468 2019-05-24
US16/882,380 US11720495B2 (en) 2019-05-24 2020-05-22 Multi-level cache security
US16/882,380 2020-05-22
PCT/US2020/034473 WO2020243053A1 (en) 2019-05-24 2020-05-26 Multi-level cache security

Publications (1)

Publication Number Publication Date
CN113892090A true CN113892090A (zh) 2022-01-04

Family

ID=73456735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080038470.0A Pending CN113892090A (zh) 2019-05-24 2020-05-26 多级高速缓存安全性

Country Status (3)

Country Link
US (1) US11720495B2 (zh)
CN (1) CN113892090A (zh)
WO (1) WO2020243053A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI805435B (zh) * 2022-01-07 2023-06-11 美商聖圖爾科技公司 預取指方法和微處理器

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449423B1 (en) * 2021-03-12 2022-09-20 Kioxia Corporation Enhancing cache dirty information
US11941291B2 (en) 2021-09-02 2024-03-26 Micron Technology, Inc. Memory sub-system command fencing
US20220107897A1 (en) * 2021-12-15 2022-04-07 Intel Corporation Cache probe transaction filtering
US11907124B2 (en) 2022-03-31 2024-02-20 International Business Machines Corporation Using a shadow copy of a cache in a cache hierarchy

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549208B2 (en) 2008-12-08 2013-10-01 Teleputers, Llc Cache memory having enhanced performance and security features
US8682639B2 (en) 2010-09-21 2014-03-25 Texas Instruments Incorporated Dedicated memory window for emulation address
US8904115B2 (en) * 2010-09-28 2014-12-02 Texas Instruments Incorporated Cache with multiple access pipelines
US9747102B2 (en) 2012-12-28 2017-08-29 Intel Corporation Memory management in secure enclaves
US9767044B2 (en) 2013-09-24 2017-09-19 Intel Corporation Secure memory repartitioning
US9514061B1 (en) * 2015-05-20 2016-12-06 Qualcomm Incorporated Method and apparatus for cache tag compression

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI805435B (zh) * 2022-01-07 2023-06-11 美商聖圖爾科技公司 預取指方法和微處理器

Also Published As

Publication number Publication date
US20230325314A1 (en) 2023-10-12
WO2020243053A1 (en) 2020-12-03
US11720495B2 (en) 2023-08-08
US20200371927A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
US8180981B2 (en) Cache coherent support for flash in a memory hierarchy
US9081711B2 (en) Virtual address cache memory, processor and multiprocessor
US5715428A (en) Apparatus for maintaining multilevel cache hierarchy coherency in a multiprocessor computer system
US6721848B2 (en) Method and mechanism to use a cache to translate from a virtual bus to a physical bus
US8949572B2 (en) Effective address cache memory, processor and effective address caching method
US8782348B2 (en) Microprocessor cache line evict array
US6295582B1 (en) System and method for managing data in an asynchronous I/O cache memory to maintain a predetermined amount of storage space that is readily available
US11321248B2 (en) Multiple-requestor memory access pipeline and arbiter
US11720495B2 (en) Multi-level cache security
US11789868B2 (en) Hardware coherence signaling protocol
US7380068B2 (en) System and method for contention-based cache performance optimization
US6484237B1 (en) Unified multilevel memory system architecture which supports both cache and addressable SRAM
US12038840B2 (en) Multi-level cache security
US7035981B1 (en) Asynchronous input/output cache having reduced latency
GB2401227A (en) Cache line flush instruction and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination